AIOps探索:分享10个运维领域的Agent Skills
2 分钟阅读
研究 AIOps 越久,就越发现 Skills 的重要性。 当然不只是在 AIOps 场景中,其它场景里 Skills 同样重要。用好 Skills 可以让我们事半功倍,让 AI 从"通用助手"升级为"领域专家"。
今天这篇文章给大家整理了 10 个运维领域里非常实用的 Skills。

一、Docker
把应用装进容器里,把 Dockerfile 写得更稳、更小、更安全。
能力:
- 1帮你写 Dockerfile
- 2把 Dockerfile 改得更小、更快
- 3帮你写 docker-compose
- 4排查容器启动失败
- 5加 healthcheck、端口、环境变量、volume、网络配置
- 6检查安全问题(root 用户、敏感信息泄露)
用在哪: Java / Python / Node / Go 应用做成 Docker 镜像、Dockerfile 太胖想瘦身、docker-compose 起不来、生产环境容器配置规范化。

二、Kubernetes Specialist
把服务部署到 Kubernetes,处理 Pod、Service、Ingress、RBAC、网络策略、存储和故障排查。
能力:
- 1写 Deployment / StatefulSet / Service / Ingress
- 2配置 ConfigMap / Secret / PV/PVC
- 3配置资源限制和健康检查(readinessProbe / livenessProbe)
- 4配置 RBAC 权限和 NetworkPolicy
- 5写 Helm Chart
- 6排查 Pod CrashLoopBackOff、服务访问不通、Ingress 异常
用在哪: 服务部署到 K8s、Pod 一直 CrashLoopBackOff、镜像拉不下来、Ingress 访问不了、服务之间无法通信、想把裸 YAML 改成 Helm Chart。
三、Terraform Engineer
用 Terraform 管理云资源——服务器、网络、数据库、权限、环境隔离。
能力:
- 1写 Terraform 代码和目录结构设计
- 2拆分 dev / test / prod 多环境
- 3设计可复用 Module
- 4配置 remote state 和 state lock
- 5配置 AWS / Azure / GCP provider
- 6检查 Terraform 代码的安全性和可维护性
四、Ansible Automation
批量管理服务器——装软件、改配置、打补丁、重启服务。
能力:
- 1写 Ansible playbook 和 inventory 主机清单
- 2写可复用的 Role
- 3批量安装软件、修改配置、打补丁、重启服务
- 4检查 playbook 是否幂等
五、CI/CD
设计和优化自动化流水线——从代码提交到测试、构建、扫描、部署。
能力:
- 1写 CI/CD 流水线(GitHub Actions / GitLab CI)
- 2优化流水线速度(缓存、并行、增量构建)
- 3加安全扫描:SAST / DAST / SCA
- 4加 Docker 镜像构建和自动部署
- 5设计多环境发布流程
- 6管理流水线里的密钥和 OIDC
六、GitHub Actions Workflow
专门用来写 GitHub Actions,配置测试、构建、安全扫描、发布和部署。
能力:
- 1写 .github/workflows/*.yml
- 2配置 push / pull request 触发和条件执行
- 3配置 matrix 多版本测试
- 4配置依赖缓存和 artifact 管理
- 5配置发布流程(npm / PyPI / Docker 镜像)
七、Monitoring & Observability
设计监控、告警、日志、链路追踪——让系统出问题时能看得见、找得到、说得清。
能力:
- 1设计监控指标体系(四大黄金信号)
- 2写 Prometheus 告警规则
- 3设计 Grafana dashboard
- 4分析日志模式和异常链路
- 5设计 OpenTelemetry 链路追踪
- 6计算 SLO 和 error budget
- 7优化告警,减少"狼来了"
八、SRE Engineer
从"救火式运维"升级到"可靠性工程"——定义 SLO、管理故障预算、减少重复人工操作。
能力:
- 1定义服务可靠性目标(SLI / SLO)
- 2计算和管理 error budget
- 3设计 on-call 机制和值班流程
- 4识别并减少 toil(重复运维工作)
- 5设计混沌工程实验
- 6做容量规划
九、Incident Triage
线上出事时,快速分诊——发生了什么、影响多大、该找谁、下一步怎么处理。
能力:
- 1看告警内容和日志,提取关键信号
- 2判断影响范围和严重等级
- 3整理事件时间线
- 4给出初步处置建议
- 5判断是否需要升级处理
- 6帮值班人员交接,生成复盘模板
十、Postmortem
故障结束后,写无责复盘——找根因、列改进项、明确负责人和截止时间。
能力:
- 1整理故障复盘报告
- 2用 5 Whys 做根因分析
- 3用鱼骨图拆问题
- 4区分直接原因和系统性原因
- 5生成改进项,分配 owner 和截止时间
- 6沉淀 lessons learned
写在最后
10 个 Skills 覆盖了从容器化 → 编排 → IaC → 配置管理 → CI/CD → 监控 → SRE → 故障处理 → 复盘的完整运维链路。每一个都可以让 AI 从一个"通用助手"变成某个领域的"专家搭档"。
AIOps 的核心不在于大模型本身,而在于你能否为你的运维场景设计出精准的 Skills。
参考资料
相关链接
- Docker Skill — agent-skills.md/skills/cosmix/claude-loom/docker
- Kubernetes Specialist — agent-skills.md/skills/Jeffallan/claude-skills/kubernetes-specialist
- Terraform Engineer — agent-skills.md/skills/Jeffallan/claude-skills/terraform-engineer
- Ansible Automation — agent-skills.md/skills/aj-geddes/useful-ai-prompts/ansible-automation
- CI/CD Skill — agent-skills.md/skills/ahmedasmar/devops-claude-skills/ci-cd
- Monitoring & Observability — agent-skills.md/skills/ahmedasmar/devops-claude-skills/monitoring-observability
- SRE Engineer — agent-skills.md/skills/Jeffallan/claude-skills/sre-engineer
博客地址:https://jungelife.me/zh/