岗位职责:
1.负责标准化运维体系的优化,包括但不限于流程规范化、监控告警标准、CI/CD流水线、故障应急响应机制等。
2.负责规划、实施和优化部门的基础设施,确保其弹性、高可用。
3.为核心业务设计并落地高可用与灾难恢复架构,保障业务连续性。
4.通过自动化工具和自主开发/集成的运维平台,消除重复性手工操作,提升整体运维效能。
5.建立覆盖全链路的监控、日志、追踪体系,实现问题主动发现、智能预警与快速根因定位,驱动系统稳定性和性能的持续提升。
6.为开发团队提供架构咨询、最佳实践引导,并推动DevOps文化在工程团队中的落地。
任职要求:
1.关键项目经验:
至少 3-5年 中大型系统运维经验。
具备公有云、私有云或混合云任一环境的实战运维与架构经验。
拥有高可用、可扩展系统的设计、构建或深度优化经验。
具备从零开始参与构建或系统性改造过运维体系的成功经验。
2.技术技能:
精通Linux操作系统及网络原理。
熟练掌握至少一种主流公有云的服务体系与最佳实践。
精通至少一门脚本语言(Python/Perl/Shell),具备通过代码解决复杂运维问题的能力。
熟练运用自动化配置与管理工具。
拥有基于Kubernetes的容器化平台运维经验。
精通监控栈(如Prometheus + Grafana)和日志分析工具(如ELK)。
熟悉Jenkins、Zabbix、nginx、emqx、mysql、Redis等配置。
3.核心能力:
具备体系化思维与构建能力
具备技术判断力、复杂问题解决能力及抗压性。
出色的沟通协作能力,能够驱动团队达成目标。
故障排除能力,能通过日志、监控、strace/lsof/tcpdump 等工具快速定位问题。
4.优先考虑条件:
有海外网络(全球加速、多地域部署、跨境低延迟等)规划与运维经验者优先。
拥有从0到1主导建设运维平台的完整经验。
有良好的技术文档习惯和团队知识分享热情。