岗位职责:
1。负责多个应用系统运维工作,主要包括日常维护,告警处置,安装部署,迁移,扩缩容,性能调优等,保障业务安全稳定运行;
2。从应用运维角度对所管辖应用的任何改动或操作进行风险评估;
3。分析系统下出现的系统,应用,数据库,网络等故障,并提出相应解决方案;
4。负责追踪或解决应用生命周期中遇到的故障异常,性能瓶颈等相关疑难问题处理;
5。制定系统监控方案,确定监控指数,制定应急处理预案,确保环境稳定安全可靠;
6。协助完成服务器资源调度,确保各项目有序进行;
7。推进日常工作的自动化与相关规范流程的制订,驱动并优化业务,运维流程,提高服务运行质量;
8。负责应用小需求迭代开发,各类运维文档及相关工作技术文档的撰写工作。
岗位要求:
1。计算机及相关专业及本科以上学历,5年以上多个运维经验
2。熟练掌握Linux常用命令,对其内核原理,文件系统,进程调度,网络栈有深入理解
3。熟练使用Shell,Python一种或多种脚本语言,能快速编写脚本处理日常重复性工作;熟悉Nginx,Redis,RocketMQ,ELK,HAproxy,Keepalive,Docker的选型,配置要点,部署和维护;
4。熟练使用Prometheus,Zabbix等,能设计有业务意义的指标和告警。
5。精通ELK/EFK或Loki栈,进行集中化日志管理和分析。
6。了解OpenTelemetry,Jaeger,SkyWalking等分布式追踪工具。
7。了解Jenkins,Ansible,Git等自动化工具的使用;
8。理解不同数据库(MySQL,PostgreSQL,Redis,MongoDB等)的核心原理,高可用方案,备份恢复和性能优化9。有一定的编程能力,有java开发经验者优先