岗位职责
云资源运维管理:负责阿里云、政务云等云平台资源(ECS/安全组/VPC/负载均衡/云盘/对象存储等)的日常运维、配置与优化。
系统部署与发布:负责业务系统的部署上线、版本发布、回滚、灰度发布与发布流程规范化,保障发布稳定性。
监控告警与故障处理:搭建并维护监控告警体系(CPU/内存/磁盘/网络/服务可用性),对线上故障进行快速定位、处理与复盘。
安全与合规支持:参与系统安全加固(权限/端口/访问控制)、漏洞修复、日志审计,配合等保测评、安全检查、攻防演练整改等工作。
备份与容灾:制定并执行数据库/文件/服务器备份策略,定期演练恢复流程,保障数据可靠性与可用性。
中间件维护:负责常见中间件的安装部署与维护,如 Nginx、MySQL、Redis、MQ 等,保障服务稳定运行。
自动化与标准化:编写运维脚本与工具(Shell/Python等),推动运维自动化;输出运维文档、SOP、应急预案与交接资料。
资源与成本优化:对云资源使用情况进行梳理与优化,控制成本,提升资源利用率与系统性能。
任职要求:
基础能力:熟悉 Linux 常用命令、系统管理、进程/网络排查;能独立定位常见线上问题(CPU飙高、磁盘满、服务异常等)。
网络理解:理解 TCP/IP、DNS、HTTPS、反向代理、负载均衡等概念,能处理证书配置、域名解析、访问链路问题。
部署经验:熟悉常见部署方式(源码/包部署、Docker/Compose 等),了解服务启动、日志分析与稳定性保障。
系统思维(认知能力重点):
能把问题从“现象 → 定位 → 解决 → 复盘 → 预防”跑完整闭环
具备风险意识:发布前评估、故障后复盘、长期可维护性
能把运维工作沉淀为流程和标准,而不是“救火式处理”
责任心与沟通协作:能与研发、测试、业务人员配合推进问题解决,具备较强执行力与抗压能力。
值班/应急意识:可接受必要的应急响应,能快速恢复核心业务。
加分项(更优先):
有政务云、等保、日志审计、堡垒机 等相关经验
熟悉 CI/CD(Jenkins/GitLab CI/GitHub Actions) 与发布流水线
熟悉 K8s 或具备集群化运维经验
熟悉 Prometheus + Grafana / ELK 等监控与日志体系
有大规模系统的稳定性保障经验(高并发、重点业务系统)
职位福利:五险一金、绩效奖金、通讯补助、带薪年假、定期体检