更新于 1月17日

高级算力网络工程师(IB/RoCE 方向)

1.1-1.7万
  • 杭州西湖区
  • 3-5年
  • 本科
  • 全职
  • 招1人

职位描述

网络管理服务器运维系统运维CISP认证证书CCIE华三认证HCIEMELLANOX网络/信息安全计算机硬件通信/网络设备
岗位职责:
1.负责智算中心 GPU 集群 IB/RoCE 网络的规划、部署、调优与全生命周期管理,保障集群网络高可用与高性能。
2.主导 IB/RoCE 网络架构设计,包括拓扑规划、设备选型、带宽规划,解决 RDMA 网络拥塞、时延等性能瓶颈。
3.独立完成 256 节点以上 GPU 集群 IB 网络部署、压测与交付,精通 NCCL 等集群通信协议优化。
4.负责网络自动化平台搭建,用 Ansible、Python 开发脚本,实现批量部署、配置校验与故障自愈。
5.编写网络架构文档、部署手册与性能调优报告,支撑跨团队技术协作与项目交付。
任职要求:
1.本科及以上学历,计算机、通信工程等相关专业,3-5 年智算 / 超算中心网络经验。
2.精通 IB、RoCE 高速通信技术及 NCCL 等集群协议,有大规模 GPU 集群 IB 网络部署与调优实战经验。
3.熟悉 Mellanox/NVIDIA 等 IB 交换机配置,掌握 PFC、ECN 等无损网络技术,能独立完成网络性能检测与调优。
4.熟练掌握 Linux 系统网络栈调优,精通 Shell、Python 自动化开发,能用 Ansible 实现集群规模化管理。
5.掌握 GPU-Driver、CUDA、IB-Driver 等软件安装与故障排查,熟悉 DCGM 等监控工具。
6.持有 CCIE、HCIE、Mellanox 认证优先,具有超算中心或大型 AI 训练集群网络经验者优先。
7.可以接受出差。

工作地点

杭州西湖区中电万谷

职位发布者

高女士/人事经理

立即沟通
公司Logo浙江天怀数智科技有限公司
浙江天怀数智科技有限公司,定位于“专注中国社区数字化全域服务,让社区生活更美好”,是一家以社区数字化服务为根基,通过人工智能(AI)、物联网平台和应用(AIoT)、边缘计算(Edge)、大数据、区块链等全栈技术研发能力,打造一体化智能化社区服务平台和场景智能化产品方案的创新型科技服务企业。天怀数智基于创始团队十多年泛地产、商旅以及AIoT领域沉淀的科技能力和专业经验,构建成稳定、开放、安全的智慧物联、业务中台及数据平台,通过AI识别算法、物联传感设备、大数据分析、开放标准等多维度的能力,以物业管理、生活服务、园区运营、社区治理、乡村服务等为核心场景,构建天和云“基座+中台+应用”的【1+2+N】新型智慧社区数字化平台,提供社区、园区、乡村、文旅等数字化全域服务的产品和综合解决方案,构筑一个全业态、全融合、全场景、全周期的服务体系,向社会各服务领域进行全面赋能。
公司主页