更新于 3月16日

系统运维工程师

1.5-2.5万
  • 深圳南山区
  • 5-10年
  • 大专
  • 全职
  • 招1人

职位描述

PVECeph
一.岗位职责:
1.负责公司服务器资源池的规划、建设与运维管理,包括服务器上架、网络规划及链路聚合配置;
2.负责运维平台体系的建设与维护,包括但不限于监控系统、堡垒机、CI/CD工具链等;
3.负责虚拟化平台(如PVE、ESXi)与存储系统(如Ceph)的部署、日常维护、性能调优及容量扩容;
4.负责GPU算力资源池的规划、建设与维护工作,支撑AI/研发业务需求;
5.为研发团队提供全方位的运维支持,包括但不限于故障定位、根因分析、性能优化与架构建议;
6.编写并维护系统相关的部署、运维及使用文档,推动知识沉淀与共享;
7.响应并支撑公司各业务团队的运维需求,保障线上业务的安全、稳定与高可用;
二.任职资格:
1.操作系统与脚本能力:精通 Ubuntu、CentOS、Windows 等主流操作系统的PXE批量安装、配置与运维;
2.熟练掌握 Shell和Python 脚本语言,能编写高效的运维自动化脚本;
3.自动化与CI/CD:熟练使用 Ansible 进行批量配置与管理,熟悉 Jenkins、GitLab 等工具,具备 CI/CD 流水线的建设和维护经验;
4.中间件与数据库:熟练掌握 MySQL、Redis、Nginx、HAProxy、Keepalived 等中间件与数据库的部署、配置、优化及高可用方案;
5.监控体系:熟悉 Zabbix、Prometheus、VictoriaMetrics 等主流监控系统的部署、运维与调优,具备构建完善监控告警体系的能力;
6.虚拟化:精通 PVE、ESXi 等虚拟化平台的原理与运维调优;
7.深入理解 Ceph 分布式存储架构,具备 RBD、RGW 等组件的生产环境运维、调优及全生命周期管理经验;
7.容器技术:对 Docker、Kubernetes 有深入理解,具备从物理机/虚拟机到容器化平台的完整部署和故障排查能力;
8.善于沟通、表达清晰,抗压能力强,能够在快速变化和不确定的环境中交付成果;
三.加分项(优先考虑)
1.具备大规模GPU智算集群(百卡以上)的调优经验;熟悉K8s GPU调度框架(如NVIDIA K8s Device Plugin, vGPU等)
2.具备 AI 运维(AIOps),或AI编程、Agent工作流等实际经验优先
3.有Ceph大型集群PB级维护经验优先
4.对可观测性理念(Observability)具有深度的理解,有实际可观测性项目经验优先
5.有20+数据中心监控经验优先
6.在混沌工程(主动故障注入)、SOP流程规范制定等有实际经验优先

工作地点

广东省深圳市南山区朗山路11号C栋201

认证资质

营业执照信息

职位发布者

雷云霞/人事专员

昨日活跃
立即沟通
公司Logo启朔(深圳)科技有限公司
启朔(深圳)科技有限公司(简称:启朔科技)是面向云游戏、云手机、云XR,数字人等行业,为客户提供SoC阵列服务器及实时互动云IaaS技术方案,包括“睿龙”SoC阵列服务器、CAStack IaaS+云平台。公司拥有跨多领域的业内一流软硬件团队,研发人员占比90%以上,SoC阵列服务器到IaaS技术方案完整自研,获得多项硬件及软件核心技术自主知识产权。同时拥有主流云平台、云游戏、数字人、工业AI、政企云终端等多行业生态合作伙伴、完善的行业定制解决方案及丰富的项目落地经验。公司是国家5G产业联合会实时互动云产品行业标准的起草单位,全球头部云厂商阿里云云手游服务器产品共创协作厂商,互动视频协会理事单位,深圳市创新型企业。公司成立于2019年9月,总部位于深圳南山,在北京、苏州、北美设有技术研发中心及分公司,在苏州高新区拥有业内最完善、专业的SoC阵列服务器生产基地。现因业务发展需要,诚挚邀请各位优秀人才的加入,一起打拼,共同创造未来!
公司主页