AIOps探索：分享10个运维领域的Agent Skills

研究AIOps大半年后，整理了10个最具实战价值的运维Agent Skills，覆盖Docker、K8s、Terraform、Ansible、CI/CD到SRE和故障复盘

2026年05月09日

Categories:

2 分钟阅读

研究AIOps大半年，目前手里有不少可落地的方案。越研究越发现Skills的重要性——用好Skills，可以让我们事半功倍。

**一句话说清楚：** AI Agent Skills 不是大模型能力的替代，而是能力的"精准化"——给 AI 一套明确的工具和上下文，让它从"什么都会但什么都不精"变成"某个场景特别能打"。今天分享10个运维领域里最有实战价值的 Skills。

研究 AIOps 越久，就越发现 Skills 的重要性。 当然不只是在 AIOps 场景中，其它场景里 Skills 同样重要。用好 Skills 可以让我们事半功倍，让 AI 从"通用助手"升级为"领域专家"。

今天这篇文章给大家整理了 10 个运维领域里非常实用的 Skills。

10个运维 Agent Skills 概览

一、Docker

把应用装进容器里，把 Dockerfile 写得更稳、更小、更安全。

能力：

1帮你写 Dockerfile
2把 Dockerfile 改得更小、更快
3帮你写 docker-compose
4排查容器启动失败
5加 healthcheck、端口、环境变量、volume、网络配置
6检查安全问题（root 用户、敏感信息泄露）

用在哪： Java / Python / Node / Go 应用做成 Docker 镜像、Dockerfile 太胖想瘦身、docker-compose 起不来、生产环境容器配置规范化。

**用法示例：** "这是我的 Node.js 项目结构，请帮我写一个生产可用的 Dockerfile，并解释每一行作用。" 或者 "这个 Dockerfile 构建太慢，帮我优化一下，要求镜像尽量小、不要用 root 用户运行。"

Docker Agent Skill 界面示意

二、Kubernetes Specialist

把服务部署到 Kubernetes，处理 Pod、Service、Ingress、RBAC、网络策略、存储和故障排查。

能力：

1写 Deployment / StatefulSet / Service / Ingress
2配置 ConfigMap / Secret / PV/PVC
3配置资源限制和健康检查（readinessProbe / livenessProbe）
4配置 RBAC 权限和 NetworkPolicy
5写 Helm Chart
6排查 Pod CrashLoopBackOff、服务访问不通、Ingress 异常

用在哪： 服务部署到 K8s、Pod 一直 CrashLoopBackOff、镜像拉不下来、Ingress 访问不了、服务之间无法通信、想把裸 YAML 改成 Helm Chart。

三、Terraform Engineer

用 Terraform 管理云资源——服务器、网络、数据库、权限、环境隔离。

能力：

1写 Terraform 代码和目录结构设计
2拆分 dev / test / prod 多环境
3设计可复用 Module
4配置 remote state 和 state lock
5配置 AWS / Azure / GCP provider
6检查 Terraform 代码的安全性和可维护性

四、Ansible Automation

批量管理服务器——装软件、改配置、打补丁、重启服务。

能力：

1写 Ansible playbook 和 inventory 主机清单
2写可复用的 Role
3批量安装软件、修改配置、打补丁、重启服务
4检查 playbook 是否幂等

**适用场景：** 还没完全上 Kubernetes，仍然有很多 VM 或物理机需要统一管理。适合批量部署 Nginx、配置防火墙、下发系统参数等操作。

五、CI/CD

设计和优化自动化流水线——从代码提交到测试、构建、扫描、部署。

能力：

1写 CI/CD 流水线（GitHub Actions / GitLab CI）
2优化流水线速度（缓存、并行、增量构建）
3加安全扫描：SAST / DAST / SCA
4加 Docker 镜像构建和自动部署
5设计多环境发布流程
6管理流水线里的密钥和 OIDC

六、GitHub Actions Workflow

专门用来写 GitHub Actions，配置测试、构建、安全扫描、发布和部署。

能力：

1写 .github/workflows/*.yml
2配置 push / pull request 触发和条件执行
3配置 matrix 多版本测试
4配置依赖缓存和 artifact 管理
5配置发布流程（npm / PyPI / Docker 镜像）

七、Monitoring & Observability

设计监控、告警、日志、链路追踪——让系统出问题时能看得见、找得到、说得清。

能力：

1设计监控指标体系（四大黄金信号）
2写 Prometheus 告警规则
3设计 Grafana dashboard
4分析日志模式和异常链路
5设计 OpenTelemetry 链路追踪
6计算 SLO 和 error budget
7优化告警，减少"狼来了"

八、SRE Engineer

从"救火式运维"升级到"可靠性工程"——定义 SLO、管理故障预算、减少重复人工操作。

能力：

1定义服务可靠性目标（SLI / SLO）
2计算和管理 error budget
3设计 on-call 机制和值班流程
4识别并减少 toil（重复运维工作）
5设计混沌工程实验
6做容量规划

九、Incident Triage

线上出事时，快速分诊——发生了什么、影响多大、该找谁、下一步怎么处理。

能力：

1看告警内容和日志，提取关键信号
2判断影响范围和严重等级
3整理事件时间线
4给出初步处置建议
5判断是否需要升级处理
6帮值班人员交接，生成复盘模板

十、Postmortem

故障结束后，写无责复盘——找根因、列改进项、明确负责人和截止时间。

能力：

1整理故障复盘报告
2用 5 Whys 做根因分析
3用鱼骨图拆问题
4区分直接原因和系统性原因
5生成改进项，分配 owner 和截止时间
6沉淀 lessons learned

**核心认知：** 复盘不是"甩锅大会"。好的 postmortem 关注"系统为什么允许这个错误发生"，而不是"谁犯了错"。

写在最后

10 个 Skills 覆盖了从容器化 → 编排 → IaC → 配置管理 → CI/CD → 监控 → SRE → 故障处理 → 复盘的完整运维链路。每一个都可以让 AI 从一个"通用助手"变成某个领域的"专家搭档"。

AIOps 的核心不在于大模型本身，而在于你能否为你的运维场景设计出精准的 Skills。

AIOps探索：分享10个运维领域的Agent Skills

Tags:

Categories:

一、Docker

二、Kubernetes Specialist

三、Terraform Engineer

四、Ansible Automation

五、CI/CD

六、GitHub Actions Workflow

七、Monitoring & Observability

八、SRE Engineer

九、Incident Triage

十、Postmortem

写在最后

参考资料

相关链接

评论