重点方向:数据中心,机房运维,要求对弱电,制冷,数据中心运维有经验
主要职责
应用系统部署与维护:
主导或配合完成各类应用系统的生产环境部署、升级、回滚及配置管理。
建立并优化标准化、自动化的应用发布流程,提升部署效率与可靠性。
管理应用运行环境,监控应用性能指标(如JVM、GC、响应时间等),并进行基础调优。
问题排查与应急响应:
作为核心人员,负责7x24小时(需参与轮值)线上故障的应急响应、快速定位与恢复。
具备从应用日志、系统日志、网络流量、性能数据等多维度进行复杂问题根因分析的能力。
主导或参与重大故障的事后复盘,输出改进措施并推动落实。
运维体系与自动化建设:
编写和维护运维脚本(Shell/Python/Go等),自动化日常运维操作。
参与或主导运维工具、监控告警系统、配置管理平台的选型、设计与改进。
推动基础设施即代码(IaC)实践,利用Ansible/Puppet/Terraform等工具提升环境一致性。
文档与流程建设:
撰写和维护系统架构、运维手册、应急预案、故障处理知识库等技术文档。
参与制定和优化运维规范、操作流程及安全策略。