岗位要求:
1. 基础与工作经验
5 年及以上 Linux 运维经验,或 3 年以上云平台/大规模集群运维经验;
熟悉常见虚拟化技术(KVM、OpenStack、VMware)及云计算体系结构。
2. 操作系统与性能调优
精通 Linux OS:进程管理、内存机制、IO、网络协议栈、文件系统;
熟悉 cgroup、systemd、SELinux、内核参数调优。
3. 中间件与数据库能力强(必须项)
至少精通 3 类中间件,能够进行:
性能分析
集群搭建
故障定位(慢查询、连接异常、主从延迟、脑裂等)
高可用与备份策略设计
4. 自动化工具能力
熟练掌握 Python/Shell;
熟悉 Ansible/Terraform/SaltStack 中至少一种;
能独立开发自动化运维脚本、巡检脚本、批量变更脚本。
5. 云平台相关技能
有云平台主机迁移、镜像管理、块存储/对象存储、网络安全组策略经验;
熟悉 Kubernetes 更佳(不是硬性要求)。
6. 故障排查能力
能处理复杂疑难问题:
kernel panic、网络连通失败、服务异常崩溃、数据库故障、中间件超时、磁盘损坏等;
能基于日志、系统指标、链路调用进行定位。
7. 文档与协作能力
能输出规范的迁移方案、问题复盘、SOP、架构图;
具备较强沟通能力,能推动跨部门协作。
岗位职责:
1. 云平台与主机迁移
负责云平台内主机(VM/KVM/VMware/OpenStack)的大规模迁移、跨集群迁移、跨机房迁移、跨操作系统迁移等工作;
主导迁移方案设计,含:迁移评估、割接方案、回滚机制、风险分析与迁移脚本开发;
处理迁移过程中的网络、存储、CPU/NUMA、GPU(如涉及)、操作系统兼容性等疑难问题。
2. 操作系统深度治理与问题处理
负责 Linux 操作系统(CentOS/RHEL/Rocky/Ubuntu 等)日常运维、故障排查、系统加固;
处理内核级问题:内核 Panic、进程僵死、IO Hang、网络拥塞、文件系统损坏、LVM/SAN/NFS 相关问题;
负责 OS 升级、内核热补丁(Livepatch/Kpatch)、系统参数优化(sysctl)、性能调优(CPU/内存/IO/网络)。
3. 中间件部署与维护(核心职责)
精通主流中间件的部署、优化、集群维护及故障排查,包括但不限于:
Web/Proxy 类:Nginx、LVS、HAProxy、Keepalived
数据库/缓存类:MySQL、PostgreSQL、Redis、MongoDB(懂原理/故障排查)
消息与协调:Kafka、RabbitMQ、Zookeeper
监控类:Prometheus+Grafana、Zabbix、ELK、OpenTelemetry
完成中间件集群扩容、主从切换、高可用配置、性能瓶颈定位等工作。
4. 自动化运维与平台化建设
能使用 Python/Shell/Ansible 编写自动化脚本,提高部署效率;
参与企业运维平台、CMDB、自动化发布系统(Jenkins/GitLab CI)、告警系统的优化;
建设运维标准、流程制度(SOP)、巡检体系、容量规划。
5. 故障处理与稳定性保障
承担重大故障排查(系统、网络、中间件、存储、虚拟化等);
构建故障演练机制(Chaos 工程/压力测试);
建立 SLO/SLA 与服务可用性保障体系。
6. 跨团队协作
支持研发、测试、业务团队的环境需求、性能优化、部署问题;
与网络、存储、虚拟化团队协作,保障整体架构的可用性。