更新于 9月5日

GPU服务器高级运维工程师

8000-15000元
  • 南京鼓楼区
  • 3-5年
  • 本科
  • 全职
  • 招1人

职位描述

IDC/机房运维GPU服务器IDC数据中心云计算/大数据计算机硬件
1、GPU集群全生命周期管理
-负责大规模GPU集群的规划、部署、监控、优化及日常维护,保障集群高可用性。
-处理硬件故障(如GPU卡、服务器主板、电源等)及软件问题(驱动异常、系统崩溃等),确保快速响应和恢复。
2、自动化运维与工具开发
-开发运维脚本(Shell/Python/Go)及自动化工具,优化部署流程,提升资源调度效率。
-设计基于Kubernetes的GPU集群管理平台,实现用户配置、性能监控、网络策略等功能的自动化 。
3、性能调优与安全保障
-分析GPU资源利用率,优化深度学习训练、推理任务的并行计算效率,降低功耗成本。
-制定安全策略,执行漏洞扫描、日志审计、数据加密,防范网络攻击及未授权访问 。
4、跨团队协作与技术支持
-配合算法团队优化模型部署环境(如PyTorch/TensorFlow),解决框架兼容性问题。
-为业务部门提供GPU资源规划建议,支持AI训练、HPC计算、视频渲染等场景需求 。
5、文档与流程建设
-编写运维手册、故障处理指南及技术文档,推动标准化流程落地 。
任职要求
1、基础要求
-计算机、电子工程或相关专业本科及以上学历,3年以上Linux系统及GPU服务器运维经验。
-熟悉NVIDIA GPU架构(如A100/H100)及配套驱动(CUDA/cuDNN),具备多卡并行环境调试能力 。
2、技术能力
-熟悉Kubernetes集群管理,熟悉GPU资源调度框架(如NVIDIA K8s Device Plugin)。
-熟练使用Prometheus/Grafana、ELK等监控工具,具备大规模日志分析与告警处理经验 。
-掌握Ansible/SaltStack等配置管理工具,熟悉CI/CD流程及DevOps理念 。
3、加分项
-持有NVIDIA DLI认证、AWS/Azure云平台专业认证者优先 。

工作地点

南京鼓楼区云峰大厦(车站东巷)23层

职位发布者

陈女士/hr

三日内活跃
立即沟通
公司Logo南京德乐科技集团有限公司
德乐科技成立于2004年,注册资金5.15亿元,总部位于南京紫峰大厦。集团拥有移动通讯产品事业群、网络设备事业群、算力基建与服务事业群、供应链综合服务事业群、运营商业务外包服务事业群、新能源服务事业群、智能数码产品事业群等7大事业群。德乐科技-算力基建与服务事业群,国内大型数据中心综合性服务商。为算力园区、数据中心、智能计算中心、云计算运营商等提供算力基础设施建设及运维服务。
公司主页