【核心职责】:
1.负责阿里云Kubernetes生产集群及Jenkins CI/CD流水线的稳定性和性能优化。
2.搭建全链路监控、告警和日志体系,确保服务可观测性。
3.使用Python/Go开发自动化运维工具,提升故障处理效率。
4.与开发、测试团队协作,制定容量规划、应急预案,管控系统风险。
【任职要求】:
1.5年以上SRE/DevOps经验,最近2年深度使用阿里云(必须)。
2.精通Kubernetes生产环境运维和排障,熟悉Jenkins CI/CD流程。
3.熟练掌握Python或Go语言,有运维工具开发经验。
4.英语读写能力,口语能简单交流
复试必须可现场面试,不接受远程候选人。
加分项:
1.AWS使用经验。
2.有电商等ToC高并发系统运维经验。
3.熟悉Prometheus、Grafana等监控工具。