职位要求:
1.严格执行7×24小时值班制度,负责公司云计算全产品线(云主机、容器、网络、存储、MaaS等)的值守保障,实时监控全链路告警信息,快速响应、分级处置各类线上故障,确保业务连续性。
2.负责线上故障的初步定位、应急处置与闭环跟进,针对常见故障(如服务不可用、网络丢包、资源过载等)快速执行标准化处置流程,复杂故障及时联动对应运维、研发团队,同步故障进展,推动根因排查与问题解决。
3. 负责值班期间运维任务的执行,包括但不限于资源扩容、配置调整、巡检检查、备份校验、故障演练等,确保各项运维操作合规、规范,留存完整操作记录。
4.协同各运维方向团队,沉淀值班故障处理经验,优化标准化处置流程(SOP),更新运维手册,参与告警策略优化、故障预防方案落地,降低故障发生率与处置时长。
5.负责值班期间业务咨询与需求响应,对接内部业务团队及外部客户,反馈运维相关问题,同步处置进度,提升服务体验;协助开展运维自动化工具的日常使用与简单优化。
6. 跟踪云计算运维领域常见故障案例与技术要点,持续提升自身故障排查、应急处置能力,配合团队完成技术培训与能力考核,支撑GOC值守体系优化。
任职要求:
1..熟练掌握Linux/Unix操作系统,具备扎实的系统配置、故障排查、命令行操作能力,能熟练使用常用运维工具(ping、netstat、tcpdump、sar等)。
2.了解云计算核心产品(云主机、VPC、对象存储、容器等)的基础架构与运维要点,熟悉至少一个方向(网络、存储、容器)的运维知识,能独立处置常见线上故障。
3. 掌握至少一门脚本语言(Python/Shell优先),能编写简单运维脚本,实现基础自动化巡检、故障处置功能;了解Prometheus、Grafana、ELK等监控日志工具的使用方法。
4.具备扎实的计算机网络基础,精通TCP/IP协议,能初步排查网络丢包、延迟、端口不通等基础网络故障;具备良好的故障排查逻辑与应急处置能力,抗压性强。
5. 具备强烈的责任心、执行力与跨团队沟通能力,工作严谨细致,能规范留存操作与故障记录,主动跟进问题闭环,具备良好的服务意识。
6. 英语CET-4及以上,能查阅基础英文技术文档,具备基本的英文沟通能力。