更新于 3月30日

高级运维工程师

1.7-2.5万
  • 上海宝山区
  • 5-10年
  • 本科
  • 全职
  • 招1人

职位描述

STATEFULCONFIGMAPNginxKubernetesGITLAB CIDevOps
岗位职责
负责核心业务在阿里云上的生产环境架构与运维保障,提升系统稳定性、可用性与可扩展性(SLA/SLO)。
负责 Kubernetes 集群全生命周期管理:规划、部署、升级、扩容、故障排查、性能优化与安全治理(ACK 或自建均可)。
建设并持续优化 CI/CD 与发布体系:灰度发布、蓝绿发布、回滚策略、发布审计与变更治理;推动研发交付标准化。
负责容器化平台与配套组件:镜像仓库、Ingress、资源配额与成本优化。 建立/优化可观测性体系:监控指标、日志、链路追踪与告警治理(降噪、分级、值班闭环)。
负责线上事故应急响应与复盘,推动稳定性工程建设:容量规划、压测、容灾演练、限流熔断降级策略落地。
推进基础设施自动化:统一配置管理、批量变更、环境一致性、自动化巡检与自动修复(Auto-healing)。
与研发/架构/安全团队协同,推动云上网络、安全、合规体系建设:权限最小化、密钥与证书管理、基线加固、审计。
任职要求
本科及以上学历,5 年+运维/DevOps/SRE 经验,具备独立负责生产系统稳定性的能力。
Kubernetes 必须:深入理解 Pod/Deployment/StatefulSet、Service/Ingress、ConfigMap/Secret、RBAC、CNI、CSI、调度与资源管理;能独立定位集群级问题。
熟悉 阿里云核心产品与实践:ECS、VPC、SLB/ALB、NAT、OSS、RDS、Redis、MQ、日志服务 SLS、云监控、RAM、WAF/安全组 等。
熟悉 Linux 系统与网络排障:CPU/内存/IO/网络瓶颈分析,常见故障(连接耗尽、磁盘抖动、时延飙升等)定位与修复。
至少掌握一种自动化语言:Shell / Python / Go,有平台化/工具化经验优先。
熟悉至少一种 CI/CD 工具链:Jenkins / GitLab CI / 云效;熟悉镜像构建、制品管理、版本回滚与发布规范。
熟悉常见中间件运维与高可用:Nginx、MySQL、Redis、Kafka(或同类),了解备份、主从、故障切换、容量治理。

工作地点

上海市宝山区顾村镇沪太路4864号25号-200

认证资质

营业执照信息

职位发布者

方文佳/人事经理

当前在线
立即沟通