1、 负责项目生产服务器基础环境的部署、配置、日常巡检、维护、故障的应急响应和问题处理;
2、 负责公司测试平台的管理工作,基础环境部署,性能容量管理,保证其稳定、高效运行;
3、 负责维护生产集中监控系统,根据业务需求调整监控策略、告警阀值,处理告警信息和问题跟踪;
4、 负责对生产环境日志系统进行维护/更新
5、 编写系统维护文档,完善并更新运维流程文档;
6、 对软硬件资源进行规划和部署,系统的数据保护、容量规划。
1. 至少2年以上需要有大规模服务器环境运维管理经验,大专以上学历。
2. 熟悉容器化相关操作,docker,k8s。
3. 熟练shell、python等脚本的使用。
4. 熟悉Linux系统及相关应用(如Nginx、Mysql、Kafka、Redis、ClickHouse)等的部署及调优。
5. 具有良好的系统分析能力,独立分析问题/解决问题的能力。
6. 能够独立的完成RedHat、Mysql、Tomcat等的巡检工作,并编写巡检报告。
7. 熟悉Zabbix/Promethuse等主流监控系统。
8. 熟悉ELK系统的维护工作。
9. 熟悉Mysql高可用集群及相关监控。
10. 有自动化运维方面的工作经验,至少使用过Ansible、 Puppet、SaltStack 至少一种自动化运维工具。
11. 做事认真,仔细,负责,能承受较大的工作压力,具有与其他团队合作的优秀品质,可以做到7*24响应处理各类应急事件。
12. 拥有rhca以上证书优先考虑。