核心职责
一、交付效率与自动化体系构建
1、分析现有研发、测试、部署及运维全链路,识别效率瓶颈,设计并落地端到端的自动化解决方案。
3、主导CI/CD流水线的持续优化与平台化建设,实现从代码提交到生产发布的无人值守式交付。
4、开发自动化运维工具与平台,覆盖资源供给、配置管理、监控告警、故障自愈等场景,最大程度减少人工操作。
二、高可用与稳定性架构实施
1、为关键业务系统设计与实施高可用、容灾及弹性伸缩方案,并通过自动化工具进行常态化演练与管理。
2、构建并完善生产可观测性体系(监控、日志、链路追踪),实现问题的主动预警与快速定位。
三、现场运维与问题解决
1、处理线上复杂故障,主导根因分析与复盘,并将解决方案沉淀为自动化剧本或平台功能。
2、制定并推行标准化运维流程(变更、发布、配置),确保生产操作的安全、高效与可追溯。
任职要求
1、统招本科及以上学历,5年以上工作经验,精通自动化运维与效能提升:具备5年以上生产环境运维经验,其中至少3年专注于自动化工具链/平台建设。有打造企业级自动化运维平台或深度改造CI/CD流水线的成功实践。
2、掌握高可用架构与云原生技术:深入理解分布式系统原理,熟悉Kubernetes及云原生生态,具备设计并运维高可用集群的实际经验。
3、具备扎实的运维基础与问题解决能力:熟悉Linux、网络及主流中间件,能高效解决各类线上问题。拥有良好的沟通协调能力,能将复杂运维需求转化为清晰的自动化或架构方案。
4、强烈的效率驱动与产品思维:不满足于重复性人工操作,始终致力于通过系统化、产品化的方法提升团队整体交付效能与系统可靠性。
加分项
1、有在大型互联网公司主导过运维效率工具链(如发布平台、资源管理平台、运维操作平台)设计与开发的经验。
2、熟悉SRE理念,并有通过工程手段显著提升系统可用性或团队效率的量化成果(如:将部署频率提升X倍,将故障恢复时间MTTR降低Y%)。
3、具备良好的技术文档编写与技术布道能力。