岗位职责:
1.负责GPU软件系统全链路测试,重点包括Runtime API、集合通信库、RDMA网络通信等功能、性能和稳定性验证
2.开发和维护分布式通信测试框架,设计多机多卡通信场景的测试用例和质量监控体系
3.分析分布式训练中的通信性能瓶颈,定位CCL和RDMA相关问题的根本原因
4.构建和维护多机多卡测试环境,包括GPU集群搭建、网络配置和性能调优
5.参与AI基础设施质量流程建设,推动分布式通信测试的自动化和标准化
任职要求:
1.计算机科学/电子工程/通信工程等相关专业本科及以上学历
2.熟悉Linux操作系统和网络基础知识,具备GPU集群或分布式系统测试经验
3.熟练掌握Python/C++等编程语言,具备自动化测试开发和性能分析能力
4.熟悉GPU软件栈架构,深入理解Runtime API工作机制,熟悉上下文、流、事件、内存管理等核心概念
5.深入理解NCCL集合通信库的架构和实现原理,具备多机多卡通信测试经验
6.熟悉RDMA网络通信协议(InfiniBand、RoCE)及相关性能测试方法
7.掌握分布式训练和高性能计算相关知识,对集合通信、AllReduce等算法有深入理解
8.熟悉Docker等虚拟化技术,能够构建和维护分布式测试环境
9.了解PyTorch/TensorFlow等AI框架的分布式训练原理,具备多卡切分和端到端测试经验
10.具备良好的沟通能力和团队协作精神,能够推动复杂技术问题的解决