岗位职责:
1. 负责公司平台级核心服务的运维与团队管理,提升业务的稳定性、可靠性与工程效率;
2. 主导应用上线评审、发布交付、配置变更、状态监控、容量管理、故障响应等关键流程;
3. 参与核心服务的高可用性设计、性能优化和容量规划,确保业务平滑扩展与高效迭代;
4. 主导线上重大问题排查、故障恢复与复盘优化,推动故障演练、应急预案与SOP建设;
5. 负责容器化环境下高可用管理,包括限流、降级、容错、容灾等方案制定与落地;
6. 推动运维流程标准化、文档化、平台化与自动化建设,提升整个团队的运维交付效率与安全保障能力。技能要求:
- 本科及以上学历,6 年以上互联网公司运维经验,1 年以上技术团队管理经验;- 熟悉微服务架构、分布式系统部署、两地三中心、业务多活等架构模型;
- 精通 Kubernetes 生态及其组件运行原理,具备大规模生产环境下的使用、排错和性能调优经验;
- 熟练掌握 Python / Go / Shell 等脚本语言,能独立开发运维工具或服务;
- 熟悉并应用过 SRE 运维体系(如 SLO/SLA、Error Budget、可观测性、自动化响应);
- 有强系统架构思维,具备技术推进、流程优化和平台工程化能力;
其他要求:
- 有 PostgreSQL / Doris / Kafka / Nacos 等组件运维经验;
- 具备 Service Mesh 实战(如 Istio)、Sidecar 模型理解;
- 有 DevOps 平台工具自研或二次开发经验;