更新于 3月16日

存储运维工程师

1.5-2.5万
  • 深圳南山区
  • 3-5年
  • 大专
  • 全职
  • 招1人

职位描述

CephOpenstackGPU
一、岗位职责:
1.负责公司Ceph分布式存储集群的规划设计、容量评估、硬件选型、部署实施及标准化建设。
2.负责Ceph RBD块存储、CephFS/JuiceFS文件系统和RGW(S3兼容)对象存储服务的日常运维、配置管理、容量伸缩。
3.负责监控集群健康状态,进行性能分析、瓶颈定位与深度调优。
4.建立高效的故障响应与处理机制,能够快速定位并解决复杂故障,完成根因分析,并推动系统性改进以防止问题复发。
5.参与或主导运维工具链开发,实现Ceph集群部署、监控、操作、扩容的自动化与平台化,提升运维效率与安全性。
6.与AI计算、云计算、研发等团队紧密合作,理解业务存储需求,提供专业的技术方案、容量规划及性能优化建议。
7.编写并维护详尽的技术文档、运维手册及应急预案,推动存储运维的标准化与知识传承。
二、任职要求:
1.3年以上生产环境Ceph运维经验,深刻理解Ceph架构、CRUSH算法、数据一致性及读写流程。
2.精通Ceph集群的部署、扩容、升级、监控和故障处理,具备通过日志和监控指标快速诊断集群问题的能力。
3.熟悉PVE超融合、ESXi 等虚拟化平台的原理与运维调优。
4.具备明确的Ceph集群性能调优经验,能够针对硬件(SSD/HDD、网络)、配置参数(如OSD、RBD缓存、RGW线程)进行优化以匹配不同业务负载(如AI训练、虚拟机、文件共享、对象存储)。
5.精通Linux操作系统,对文件系统、内核I/O、网络(TCP/IP,VLAN,bonding)有深入理解,具备服务器硬件及存储设备的基础知识。
6.熟练掌握Python和/或Shell脚本编程,能够编写自动化运维脚本,有Ansible等自动化工具使用经验。
7.熟练使用Prometheus、Grafana、Alertmanager等工具构建Ceph监控告警体系,对核心性能指标有清晰的认知。
8.具备优秀的沟通能力、责任心和抗压能力,能够主导技术方案,并与不同背景的团队成员有效协作。
三、加分项(优先考虑)
1.拥有PB级或超百个OSD节点的大型Ceph生产集群规划、运维和性能优化经验。
2.有支持GPU智算无损网络Ceph、OpenStack、云原生平台存储场景的经验。
3.有基于Ceph构建私有云存储或混合云存储方案的实际经验。
4.持有Red Hat Ceph Storage认证(如RHCA/RHCS)或其他相关权威认证。

工作地点

广东省深圳市南山区朗山路11号C栋201

认证资质

营业执照信息

职位发布者

雷云霞/人事专员

刚刚活跃
立即沟通
公司Logo启朔(深圳)科技有限公司
启朔(深圳)科技有限公司(简称:启朔科技)是面向云游戏、云手机、云XR,数字人等行业,为客户提供SoC阵列服务器及实时互动云IaaS技术方案,包括“睿龙”SoC阵列服务器、CAStack IaaS+云平台。公司拥有跨多领域的业内一流软硬件团队,研发人员占比90%以上,SoC阵列服务器到IaaS技术方案完整自研,获得多项硬件及软件核心技术自主知识产权。同时拥有主流云平台、云游戏、数字人、工业AI、政企云终端等多行业生态合作伙伴、完善的行业定制解决方案及丰富的项目落地经验。公司是国家5G产业联合会实时互动云产品行业标准的起草单位,全球头部云厂商阿里云云手游服务器产品共创协作厂商,互动视频协会理事单位,深圳市创新型企业。公司成立于2019年9月,总部位于深圳南山,在北京、苏州、北美设有技术研发中心及分公司,在苏州高新区拥有业内最完善、专业的SoC阵列服务器生产基地。现因业务发展需要,诚挚邀请各位优秀人才的加入,一起打拼,共同创造未来!
公司主页