隽戈

隽戈

云原生架构师 / SRE 工程师 / 技术博主
AI 让写代码变快了,但代码从来没变得更便宜。这是我在 AI 时代做工程最深的体会。

我是 隽戈,具备 SRE、云原生、可观测性、数据工程、机器学习与平台研发 的复合背景。我的核心工程价值不在于会多少工具,而在于有能力做战略性的架构决策——在代码被廉价生成的时代,决定怎么组织模块、怎么定义概念、怎么切分任务,才是工程师不可替代的部分。

长期专注于大规模分布式系统稳定性治理AIOps 平台建设,熟悉从 Metric / Log / Trace / Event 多源数据接入,到告警收敛、异常检测、根因分析、容量预测、自动化处置、智能 Runbook 和运维知识库的完整链路。

我的工程哲学:任何经过我手的系统,都会变得更清晰、更可维护、更容易被下一个工程师理解。

核心能力

🛡️ SRE 稳定性治理 ☁️ 云原生架构 📊 可观测性工程
📐 数据工程 🤖 机器学习应用 🔧 平台工程
全链路 AIOps 能力覆盖:数据采集 → 智能分析 → 自动处置 → 知识沉淀

技术栈

平台工程能力
AIOps 架构设计 数据链路建设 模型服务化 告警闭环 稳定性保障
云原生技术栈
Kubernetes Docker Helm Kustomize ArgoCD Istio
可观测性技术
Prometheus OpenTelemetry Grafana ELK / EFK Skywalking Jaeger
数据工程
Kafka Flink ClickHouse Elasticsearch Spark
编程语言
Python Golang Java Rust
IaC & 自动化
Terraform Ansible Pulumi Jenkins GitLab CI GitHub Actions

社区与开源

活跃社区
  • 高效运维社区
  • HAMI 社区
  • Xinference 社区
  • CNCF 云原生西南社区
  • ArkSphere AI 社区
开源项目经验
kubeasz Project-HAMi higress vllm sglang xinference OpenKruise
你好,我是隽戈。

我的工程哲学

在 AI 时代,开发者的角色从写代码的人变成了做战略设计的人。 AI 是你的战术执行者——它写代码、跑测试、做重构——但战略层面的决策必须由人来定。 以下四条原则是我做工程决策的底层逻辑:

🔷 我设计,不堆积

功能丰富但接口简单的 Deep Module,好过一片又浅又碎的代码碎片。 把复杂性封装在背后,让每次交互只需要理解接口,而不是全部细节。

🔷 我统一,不猜测

人、代码、AI 说同一套术语。统一语言不是文档,是消除歧义的工程纪律。 在 AI 时代,这个价值被放大了十倍。

🔷 我先想,再动手

写代码前让设计先被拷问清楚。依赖关系、边界条件、数据模型—— AI 不会帮你做决策,它只会加速你已经做出的决策。如果你没想清楚,AI 加速的只是混乱。

🔷 我验证,才交付

每一步都是可验证的。在 AI 生成几百行代码的时代,TDD 的角色从质量保障变成了过程控制——确保每一步都在可控范围内,发现偏差立刻修正。

这些原则不是新发明——它们来自《领域驱动设计》《软件设计的哲学》和极限编程。在 AI 时代,它们没有被淘汰,而是变得更重要了。

AIOps 全链路能力

从多源数据接入到智能运维闭环的完整技术链路

AIOps 全链路能力架构图
✅ Metric / Log / Trace / Event 多源数据 → 告警闭环与稳定性保障

职业背景

拥有 新加坡电信智慧城市项目 的核心项目管理经验,作为技术骨干,主导了基础设施从早期 Mesos 到现代 Kubernetes 云原生体系的完整技术演进与架构升级。在这个过程中,我学到最重要的一课是:好的架构不是设计出来的,是在约束条件下迭代出来的。

蚂蚁金服 及头部互联网银行任职期间,深度参与金融级核心系统的云原生化转型。金融场景对稳定性的极致要求让我深刻理解:系统弹性不是靠加副本实现的,是靠对故障模式的理解和治理。重点聚焦底层基础设施的高可用性建设与平台工程化能力,在保障金融级稳定性的前提下,显著提升了研发交付效率与系统弹性。

代表项目实践

企业级研运一体化平台 (DevOps Platform)
架构设计 / 落地实施 / DevOps 三级认证

基于 GitOps + CI/CD + Kubernetes 理念,从 0 到 1 构建企业级私有化研发流程平台。通过标准化流水线与自动化交付体系,大幅缩短研发周期,并主导平台通过 DevOps 三级认证,确立了行业领先的工程化标准。

AI 异构算力底座建设 (AI Infrastructure)
HAMi / vLLM / sglang / GPU Scheduling

构建基于 HAMi + Kubernetes 的高性能异构算力平台,实现 vGPU 资源的池化管理与动态弹性调度。成功落地基于 vLLM / sglang 的大模型容器化部署方案,为企业内部多场景推理任务提供了统一、高效、可扩展的算力底座。

下一代智能运维体系 (AIOps)
Dify / OpenClaw / n8n / LLM Application / Intelligent Operations

探索 LLM 在运维领域的深度应用,基于 Dify + OpenClaw + n8n 框架落地智能运维场景。实现了日志智能归因分析、系统故障自动诊断及自助式运维客服,构建了从被动响应到主动治理的 AIOps 闭环体系,有效降低了运维人力成本。

大规模可观测性平台建设
Prometheus / OpenTelemetry / Grafana / ELK / Kafka / Flink

主导设计并落地多租户 Prometheus + OpenTelemetry 可观测性平台,覆盖 Metric / Log / Trace / Event 全链路数据采集与分析。基于 Kafka + Flink 构建实时告警流处理引擎,实现告警收敛、异常检测与根因分析的自动化,支撑日均数十亿级指标数据的实时分析需求。

个人愿景

我坚信:工程价值的核心不是写了多少代码,而是让多少系统变得更好了。工作之余,致力于通过 影像创作 与技术分享连接社区。持续制作高质量技术 Vlog,以可视化、系统化的方式复盘实战经验,推动云原生与 AI 技术的普及与传播。

  • 📚 沉淀: 构建系统化技术知识库
  • 💡 洞察: 分享行业前沿趋势见解
  • 📷 生活: 记录技术之外的多彩瞬间