从0到1:用AI Agent架构搭建AIOps平台的设计思路

分享基于AI Agent架构搭建AIOps平台的四层设计模型,涵盖用户体系、MCP集成、Skill管理等核心模块的技术选型与落地步骤。

用 AI Agent 构建 AIOps 平台,核心思路是把 Agent 作为"大脑",通过 MCP(Model Context Protocol)接入运维工具链,通过 Skill 插件扩展自动化能力。这篇文章分享一个四层架构设计模型,从 Web UI 到底层系统集成,给出完整的技术选型建议和开发落地步骤。

AIOps(智能运维)喊了很多年,但真正落地的方案并不多。核心难点在于:运维场景碎片化——告警处理、故障排查、变更管理、容量规划——每个场景都涉及不同的工具链和领域知识。

大模型的崛起给了 AIOps 一个新的技术路径:用 AI Agent 作为中枢,通过 MCP 协议和 Skill 插件对接现有运维工具,实现"对话式运维"。

一、四层架构总览

整个 AIOps 平台的核心架构分为四个层次,从上到下依次是用户交互层、API 网关层、Agent 核心层和系统集成层:

AIOps平台四层架构

各层职责

  1. 1 Web UI 控制台:提供用户登录、操作界面、管理员配置(MCP/Skill 管理)的可视化界面。
  2. 2 API 网关 / 后端服务:统一鉴权、权限控制、Skill 管理和 MCP 配置路由,转发请求到 Agent 核心。
  3. 3 AI Agent 核心:执行对话推理与 Skill 任务,与 MCP 系统和外部插件交互。
  4. 4 MCP / 外部系统集成:对接云服务、DevOps 工具、日志系统、监控告警平台等运维基础设施。
设计要点:每层之间通过明确定义的 API 接口解耦。Agent 核心不直接感知上层的 UI 细节,也不直接操作下层的基础设施——所有交互都通过 MCP 协议标准化。

二、核心模块设计

1)用户体系与权限管理

AIOps 平台涉及多个角色,权限设计是第一道关卡:

角色权限范围说明
管理员配置 MCP、管理 Skill、全平台监控拥有系统级配置权限
运维工程师使用已授权的 Skill 和 MCP 工具日常排障与变更操作
只读用户查看历史、告警信息、操作审计仅读权限

实现要点:

  • 使用 JWT 做无状态鉴权,避免每次请求都查数据库
  • 敏感配置(API Key、数据库密码等)加密存储,管理员配置 MCP 时的密钥信息不进明文数据库
  • Skill 调用权限支持按用户组分群,不同组只能看到授权的 Skill 工具

2)Web UI 控制台

核心功能模块:

  • AI 对话界面:用户输入自然语言,Agent 理解意图并执行
  • 管理员配置面板:可视化配置 MCP 端点、上传/管理 Skill 文件
  • 任务监控仪表盘:展示 Skill 执行状态、MCP 调用链、异常告警
技术选型:
  • 前端:React / Vue + Ant Design / Tailwind CSS
  • 实时通信:WebSocket / Server-Sent Events (SSE)
  • 后端:Node.js 或 Python(FastAPI)

3)AI Agent 核心

这是整个平台的大脑。Agent 核心承载两个关键能力:

  • 对话推理:理解用户输入的运维意图,拆解为可执行的步骤
  • Skill 执行:调用注册的 Skill 插件,执行具体的运维操作

Agent 通过 OpenAI API 兼容接口提供服务,这意味着你可以将任何兼容 OpenAI 协议的大模型接入 Agent,无论是商业模型还是开源自部署模型。

核心能力:Agent 不仅执行单次对话,还能维护上下文,在多步骤运维场景中保持状态——例如"先查告警,再看日志,最后重启服务"这类多步操作,Agent 可以在一次对话中串联完成。

4)MCP 集成

MCP(Model Context Protocol)是 Agent 与外部系统交互的标准化协议。通过 MCP,Agent 可以调用各种运维工具:

类别典型系统对接方式
云服务AWS、阿里云、腾讯云REST API / SDK
DevOps 工具Jenkins、GitLab、AnsibleAPI 集成
日志系统ELK、Loki查询接口
监控告警Prometheus、AlertmanagerHTTP API
数据库MySQL、Redis、ES只读查询 + 变更审批
Kuberneteskube-apiserverKubectl Plugin / Client SDK
安全提醒:MCP 操作的权限范围需要严格控制。建议将 MCP 操作分为"只读"和"写入"两类:
  • 只读操作(查日志、查告警)→ 允许自动执行
  • 写入操作(变更配置、重启服务)→ 需要人工确认

5)Skill 管理

Skill 是 Agent 的可执行能力单元。想象它就像 vscode 的插件——你需要一套完善的机制来管理它。

Skill 生命周期管理:

  1. 1 上传:管理员在前端上传 Skill 文件(通常是 Python/YAML 定义)
  2. 2 验证:后端校验 Skill 格式和安全性
  3. 3 注册:保存到 Agent 的 Skill 目录并热加载
  4. 4 授权:按用户组分配 Skill 调用权限
  5. 5 执行:用户在对话中触发 Skill
  6. 6 监控:记录调用日志和性能指标
实现注意:Agent 的官方 API 通常只提供任务执行接口,不直接暴露 Skill/MCP 的管理端点。因此需要一个后端中介层来封装管理操作——接收前端请求,操作文件系统和配置,然后再触发 Agent 的 reload 热更新。

三、技术选型与结构图

完整的推荐技术栈:

模块推荐技术
前端 UIReact + Ant Design / Tailwind CSS
后端 APIFastAPI(Python)或 Express(Node.js)
用户体系 & RBACPostgreSQL + JWT
AI Agent 核心兼容 OpenAI 协议的 Agent 服务
Skill 管理文件/数据库 + Agent Reload 热更新
MCP 集成REST API / SDK Adapter
日志 & 监控ELK / Prometheus / Grafana
实时通信WebSocket / SSE
部署方式Docker → Kubernetes(可选)

四、开发落地七步法

以下是构建 AIOps 平台的推荐路线图,按依赖顺序排列:

第一步:环境搭建 部署 Agent 并开启 API Server 模式,验证基础对话能力可用。

第二步:用户体系 建用户表、实现登录/注册、JWT 令牌发放、角色权限数据模型。

第三步:Web UI 基础 实现管理员和普通用户的界面框架、可交互的 AI 对话页面。

第四步:Skill 管理 后端封装 Skill 上传、验证、启用/禁用、热加载的完整 API。

第五步:MCP 集成 开发 MCP Adapter 层,将常用运维工具(K8s、监控、日志)包装为 MCP 连接,注入 Skill 执行环境。

第六步:日志与监控 记录每一次 Skill 执行、MCP 调用、用户操作,形成完整的可审计链路。

第七步:测试与部署 本地集成测试 → Docker 容器化 → Kubernetes 部署并配置自动弹性伸缩。

五、可扩展思路

当核心平台运转起来后,真正的增长点在 Skill 生态:

  • 多租户支持:不同团队的 Agent 数据隔离,管理员管理自己组织的配置
  • 自动化运维流程:将"告警触发 → 诊断 → 修复"三件套编写为自动化 Skill
  • 审批流集成:变更操作自动生成工单,审批通过后执行
  • 插件市场:可复用的 Skill 插件让社区贡献运维经验
写在最后

用 AI Agent 构建 AIOps 平台,核心模式是 "后端管理层 + AI Agent + MCP/Skill 注入"。前端操作全部通过后端封装的 API 与 Agent 交互,实现完善的权限管控、弹性扩展和可审计性。

这只是一个起点——真正的价值在于围绕运维场景持续打磨 Skill 生态,让 Agent 真正读懂你的运维语言。


本文首发于 隽戈的技术博客