关于我 | 隽戈的科技生活馆

核心能力

🛡️ SRE 稳定性治理 ☁️ 云原生架构 📊 可观测性工程

📐 数据工程 🤖 机器学习应用 🔧 平台工程

全链路 AIOps 能力覆盖：数据采集 → 智能分析 → 自动处置 → 知识沉淀

技术栈

平台工程能力

AIOps 架构设计数据链路建设模型服务化告警闭环稳定性保障

云原生技术栈

Kubernetes Docker Helm Kustomize ArgoCD Istio

可观测性技术

Prometheus OpenTelemetry Grafana ELK / EFK Skywalking Jaeger

数据工程

Kafka Flink ClickHouse Elasticsearch Spark

编程语言

Python Golang Java Rust

IaC & 自动化

Terraform Ansible Pulumi Jenkins GitLab CI GitHub Actions

社区与开源

活跃社区

高效运维社区
HAMI 社区
Xinference 社区
CNCF 云原生西南社区
ArkSphere AI 社区

开源项目经验

kubeasz Project-HAMi higress vllm sglang xinference OpenKruise

我的工程哲学

在 AI 时代，开发者的角色从写代码的人变成了做战略设计的人。 AI 是你的战术执行者——它写代码、跑测试、做重构——但战略层面的决策必须由人来定。以下四条原则是我做工程决策的底层逻辑：

🔷 我设计，不堆积

功能丰富但接口简单的 Deep Module，好过一片又浅又碎的代码碎片。把复杂性封装在背后，让每次交互只需要理解接口，而不是全部细节。

🔷 我统一，不猜测

人、代码、AI 说同一套术语。统一语言不是文档，是消除歧义的工程纪律。在 AI 时代，这个价值被放大了十倍。

🔷 我先想，再动手

写代码前让设计先被拷问清楚。依赖关系、边界条件、数据模型—— AI 不会帮你做决策，它只会加速你已经做出的决策。如果你没想清楚，AI 加速的只是混乱。

🔷 我验证，才交付

每一步都是可验证的。在 AI 生成几百行代码的时代，TDD 的角色从质量保障变成了过程控制——确保每一步都在可控范围内，发现偏差立刻修正。

这些原则不是新发明——它们来自《领域驱动设计》《软件设计的哲学》和极限编程。在 AI 时代，它们没有被淘汰，而是变得更重要了。

职业背景

拥有 新加坡电信智慧城市项目 的核心项目管理经验，作为技术骨干，主导了基础设施从早期 Mesos 到现代 Kubernetes 云原生体系的完整技术演进与架构升级。在这个过程中，我学到最重要的一课是：好的架构不是设计出来的，是在约束条件下迭代出来的。

在 蚂蚁金服 及头部互联网银行任职期间，深度参与金融级核心系统的云原生化转型。金融场景对稳定性的极致要求让我深刻理解：系统弹性不是靠加副本实现的，是靠对故障模式的理解和治理。重点聚焦底层基础设施的高可用性建设与平台工程化能力，在保障金融级稳定性的前提下，显著提升了研发交付效率与系统弹性。

代表项目实践

企业级研运一体化平台 (DevOps Platform)

架构设计 / 落地实施 / DevOps 三级认证

基于 GitOps + CI/CD + Kubernetes 理念，从 0 到 1 构建企业级私有化研发流程平台。通过标准化流水线与自动化交付体系，大幅缩短研发周期，并主导平台通过 DevOps 三级认证，确立了行业领先的工程化标准。

AI 异构算力底座建设 (AI Infrastructure)

HAMi / vLLM / sglang / GPU Scheduling

构建基于 HAMi + Kubernetes 的高性能异构算力平台，实现 vGPU 资源的池化管理与动态弹性调度。成功落地基于 vLLM / sglang 的大模型容器化部署方案，为企业内部多场景推理任务提供了统一、高效、可扩展的算力底座。

下一代智能运维体系 (AIOps)

Dify / OpenClaw / n8n / LLM Application / Intelligent Operations

探索 LLM 在运维领域的深度应用，基于 Dify / OpenClaw / Harness / n8n 框架落地智能运维场景。实现了日志智能归因分析、系统故障自动诊断及自助式运维客服，构建了从被动响应到主动治理的 AIOps 闭环体系，有效降低了运维人力成本。

数据中心设备管理体系建设 (Vibe Coding)

Codex / Claude Code / Windsurf / Redfish / DCIM

以 Vibe Coding（基于 Codex / Claude Code / Windsurf 的 AI 辅助开发）模式，从 0 到 1 构建数据中心设备管理体系（DCIM）。覆盖全品类资产设备管理——机架设备、安全设备、存储设备、网络设备的多品牌统一纳管；通过标准 Redfish 协议与爬虫自动采集打通带外 BMC 数据，实现设备信息的自动化采集与运维流程优化；并构建机房机架拓扑可视化，结合 MAC 地址实现网络线路的自动回溯与链路追踪，显著提升了数据中心的资产可视性与运维效率。

个人愿景

我坚信：工程价值的核心不是写了多少代码，而是让多少系统变得更好了。工作之余，致力于通过 影像创作 与技术分享连接社区。持续制作高质量技术 Vlog，以可视化、系统化的方式复盘实战经验，推动云原生与 AI 技术的普及与传播。

📚 沉淀： 构建系统化技术知识库
💡 洞察： 分享行业前沿趋势见解
📷 生活： 记录技术之外的多彩瞬间