更新于 1月29日

AI集群网络工程师

2-3万
  • 深圳福田区
  • 车公庙
  • 3-5年
  • 本科
  • 全职
  • 招1人

职位描述

华为认证
岗位职责:
1.负责算力集群高速网络的现场部署与深度调试,包括网络拓扑实现、交换机配置、性能基准测试及故障排除。
2.主导集群系统级性能分析与优化,定位并解决从硬件(GPU/CPU)、网络(延迟/带宽)到存储(并行文件系统)的全链路性能瓶颈。
3.编写和维护自动化脚本与工具(如Ansible/Python),实现大规模服务器集群的系统配置、驱动部署、监控集成等任务的标准化与自动化。
4.快速响应和解决在集成、压力测试及运维阶段出现的复杂技术问题,保障集群稳定高效运行。
5.输出项目实施文档、性能调优报告、模型调优报告、运维手册,并对客户团队进行关键技术转移与培训。
岗位要求:
1.本科及以上学历,计算机、网络工程相关专业,3年以上数据中心/AI集群的现场实施或高级运维经验。
2.精通InfiniBand或高性能以太网技术,具备主流厂商交换机的实际配置与排错能力。
3.熟练掌握主流操作系统,具备使用自动化工具(Ansible/SaltStack 等)进行大规模环境部署的能力,熟悉基础监控栈(如Prometheus/Grafana)。
4.具备扎实的系统性能分析与调优技能,熟悉相关性能工具(如perf, nvidia-smi, ibstat等),能独立开展性能压测与瓶颈分析。
5.有华为一体机或超融合集群的交付调优经验者优先;熟悉Slurm/K8s等调度系统者优先。

工作地点

深圳福田区泰然立城A座

职位发布者

高莹/HR

立即沟通
公司Logo深圳市润迅数智科技有限公司
深圳市润迅数智科技有限公司成立于2021年6月,所属集团公司是深圳市润杨投资有限公司(2000年成立),致力于软件和信息技术服务行业,一般经营项目:软件开发、软件销售、计算机系统服务、网络技术服务、网络技术咨询等。公司福利待遇: 1、周末双休,五险一金; 2、带薪年假、法定假日福利、午餐补助; 3、定期培训、丰富的团队建设活动等; 4、下午茶、员工生日礼物,部门聚餐; 5、年度健康体检; 6、我们努力为每一位员工创造一个快乐的工作环境!
公司主页