
隽戈
我是 隽戈,具备 SRE、云原生、可观测性、数据工程、机器学习与平台研发 的复合背景。我的核心工程价值不在于会多少工具,而在于有能力做战略性的架构决策——在代码被廉价生成的时代,决定怎么组织模块、怎么定义概念、怎么切分任务,才是工程师不可替代的部分。
长期专注于大规模分布式系统稳定性治理和 AIOps 平台建设,熟悉从 Metric / Log / Trace / Event 多源数据接入,到告警收敛、异常检测、根因分析、容量预测、自动化处置、智能 Runbook 和运维知识库的完整链路。
我的工程哲学:任何经过我手的系统,都会变得更清晰、更可维护、更容易被下一个工程师理解。
核心能力
技术栈
社区与开源
活跃社区
- 高效运维社区
- HAMI 社区
- Xinference 社区
- CNCF 云原生西南社区
- ArkSphere AI 社区
开源项目经验
我的工程哲学
在 AI 时代,开发者的角色从写代码的人变成了做战略设计的人。 AI 是你的战术执行者——它写代码、跑测试、做重构——但战略层面的决策必须由人来定。 以下四条原则是我做工程决策的底层逻辑:
🔷 我设计,不堆积
功能丰富但接口简单的 Deep Module,好过一片又浅又碎的代码碎片。 把复杂性封装在背后,让每次交互只需要理解接口,而不是全部细节。
🔷 我统一,不猜测
人、代码、AI 说同一套术语。统一语言不是文档,是消除歧义的工程纪律。 在 AI 时代,这个价值被放大了十倍。
🔷 我先想,再动手
写代码前让设计先被拷问清楚。依赖关系、边界条件、数据模型—— AI 不会帮你做决策,它只会加速你已经做出的决策。如果你没想清楚,AI 加速的只是混乱。
🔷 我验证,才交付
每一步都是可验证的。在 AI 生成几百行代码的时代,TDD 的角色从质量保障变成了过程控制——确保每一步都在可控范围内,发现偏差立刻修正。
AIOps 全链路能力
从多源数据接入到智能运维闭环的完整技术链路

职业背景
拥有 新加坡电信智慧城市项目 的核心项目管理经验,作为技术骨干,主导了基础设施从早期 Mesos 到现代 Kubernetes 云原生体系的完整技术演进与架构升级。在这个过程中,我学到最重要的一课是:好的架构不是设计出来的,是在约束条件下迭代出来的。
在 蚂蚁金服 及头部互联网银行任职期间,深度参与金融级核心系统的云原生化转型。金融场景对稳定性的极致要求让我深刻理解:系统弹性不是靠加副本实现的,是靠对故障模式的理解和治理。重点聚焦底层基础设施的高可用性建设与平台工程化能力,在保障金融级稳定性的前提下,显著提升了研发交付效率与系统弹性。
代表项目实践
企业级研运一体化平台 (DevOps Platform)
基于 GitOps + CI/CD + Kubernetes 理念,从 0 到 1 构建企业级私有化研发流程平台。通过标准化流水线与自动化交付体系,大幅缩短研发周期,并主导平台通过 DevOps 三级认证,确立了行业领先的工程化标准。
AI 异构算力底座建设 (AI Infrastructure)
构建基于 HAMi + Kubernetes 的高性能异构算力平台,实现 vGPU 资源的池化管理与动态弹性调度。成功落地基于 vLLM / sglang 的大模型容器化部署方案,为企业内部多场景推理任务提供了统一、高效、可扩展的算力底座。
下一代智能运维体系 (AIOps)
探索 LLM 在运维领域的深度应用,基于 Dify + OpenClaw + n8n 框架落地智能运维场景。实现了日志智能归因分析、系统故障自动诊断及自助式运维客服,构建了从被动响应到主动治理的 AIOps 闭环体系,有效降低了运维人力成本。
大规模可观测性平台建设
主导设计并落地多租户 Prometheus + OpenTelemetry 可观测性平台,覆盖 Metric / Log / Trace / Event 全链路数据采集与分析。基于 Kafka + Flink 构建实时告警流处理引擎,实现告警收敛、异常检测与根因分析的自动化,支撑日均数十亿级指标数据的实时分析需求。
个人愿景
我坚信:工程价值的核心不是写了多少代码,而是让多少系统变得更好了。工作之余,致力于通过 影像创作 与技术分享连接社区。持续制作高质量技术 Vlog,以可视化、系统化的方式复盘实战经验,推动云原生与 AI 技术的普及与传播。
- 📚 沉淀: 构建系统化技术知识库
- 💡 洞察: 分享行业前沿趋势见解
- 📷 生活: 记录技术之外的多彩瞬间