更新于 今天

高速网络通信库开发工程师(NCCL适配及优化方向)

1.7-2.7万
  • 长沙开福区
  • 1-3年
  • 硕士
  • 全职
  • 招1人

职位描述

C++
一、岗位职责
1.参与公司自研高速网络与NCCL(NVIDIA
Collective Communications Library)的全流程适配开发,核心负责代码开发、功能调试与兼容性优化,确保自研高速网络能稳定对接NCCL,支撑分布式训练等场景的集合通信需求。
2.负责针对集合通信(如AllReduce、AllGather、ReduceScatter、Broadcast等)的性能优化,结合自研高速网络低延迟、高带宽的核心特性,优化通信算法、数据传输链路及协议交互逻辑,突破性能瓶颈,对标IB网络的集合通信性能表现。
3.优化驱动与NCCL的交互逻辑,完善集合通信场景的适配支持,解决通信延迟、带宽利用率、稳定性等问题,最大化发挥高速网络硬件性能。
4.搭建NCCL适配及集合通信性能测试环境,设计测试方案、编写测试用例,开展功能验证、性能基准测试及压力测试,定位适配及优化过程中的各类异常问题并快速落地解决方案。
5.跟踪NCCL协议规范、集合通信算法及高速网络相关前沿优化技术,结合自研网络的发展需求,迭代优化适配方案及集合通信性能,助力补全自研高速网络软件生态短板。
6.配合团队完成其他相关开发任务,参与技术方案评审、问题复盘,推动NCCL适配及集合通信优化任务快速落地,支撑分布式训练等核心业务场景。
【岗位能力要求】
1.精通C/C++编程语言,具备扎实的计算机网络基础和Linux系统开发能力,熟悉Linux内核网络子系统、用户态/内核态交互机制,能熟练编写高性能、高可靠性的网络程序。
2.深入理解NCCL协议规范、集合通信核心原理及常用算法(AllReduce、AllGather等),有NCCL适配、二次开发或性能优化经验者优先,熟悉NCCL与网络硬件的交互逻辑。
3.具备用户态/内核态驱动开发或调试经验,能快速理解自研高速网络的驱动架构、接口定义,熟练实现驱动与NCCL的交互对接,解决驱动层面的兼容性、通信异常等问题。
4.掌握集合通信性能优化方法,熟悉低延迟、高带宽网络的传输特性,有分布式训练网络优化、RDMA网络相关开发经验者加分,能针对性优化数据传输效率、降低通信延迟。
5.熟练使用Linux开发与调试工具(gdb、perf、tcpdump、dmesg等),具备较强的性能分析能力,能独立排查NCCL适配及集合通信过程中的性能瓶颈、通信故障等复杂问题。
6.具备良好的代码规范和开发习惯,熟悉Git版本控制工具,能独立完成适配方案设计、编码实现、测试验证及相关技术文档编写。
7.具备强的问题分析与解决能力,面对NCCL适配、集合通信优化中的技术难题(如性能不达标、通信不稳定),能快速定位根源并高效落地解决方案。
8.具备良好的学习能力和技术钻研精神,能快速补全自身非核心技能短板,主动跟踪NCCL、集合通信、高速网络相关前沿技术,适配项目快速迭代节奏。
9.具备较强的责任心和执行力,能独立承担NCCL适配及集合通信优化核心任务,严格把控开发质量和交付时效,确保任务按期落地。
10.具备基础的沟通协作能力,能配合驱动开发、测试等相关岗位高效协同,同步项目进度、协同解决跨岗位技术问题,助力软件生态搭建。
11.优秀人才提供管理岗位和晋升通道,匹配相应待遇。

工作地点

长沙开福区凯乐微谷电子商务总部基地(商住楼)

职位发布者

原燕妮/人事经理

昨日活跃
立即沟通
公司Logo星络互联科技(天津)有限公司
公司主页