职位概述
我们正在寻找一位资深具身模型分布式训练师,负责领导大规模具身智能模型的分布式训练工作。您将参与构建业界领先的机器人智能系统,推动具身智能技术的边界。
核心职责
1、技术研发与实现
- 设计并实施大规模具身模型的分布式训练架构,包括数据并行、模型并行、流水线并行等策略
- 开发和优化多机多卡环境下的训练框架,提升训练效率和系统稳定性
- 构建高效的分布式仿真环境,支持大规模并行数据收集和策略评估
- 实现混合并行训练方案,优化通信开销和计算资源利用率
2、系统优化与性能调优
- 分析和解决分布式训练中的性能瓶颈,包括通信、内存、计算等方面
- 开发梯度同步优化、通信压缩、重叠计算等性能优化技术
- 设计和实施容错机制,确保长时间训练的稳定性和可靠性
- 优化GPU显存使用,支持更大模型和批次的训练
3、算法创新与应用
- 研究和应用最新的分布式训练算法,如ZeRO、MoE等先进技术
- 开发适应具身智能特点的训练策略,包括多任务学习、元学习、课程学习等
- 设计高效的强化学习分布式训练框架,支持离线与在线混合训练
- 探索仿真到实物的迁移学习技术,提升模型在真实环境中的表现
4、工程部署与运维
- 构建自动化训练流水线,实现模型训练、评估、部署的全流程管理
- 开发训练监控系统,实时跟踪训练状态、资源使用和性能指标
- 设计和维护多集群训练环境,支持弹性扩缩容和资源调度
- 建立模型版本管理和实验追踪体系
5、团队协作与指导
- 领导技术方案设计和代码审查,确保代码质量和系统可靠性
- 指导初级工程师,分享分布式训练的最佳实践和经验
- 与算法团队、硬件团队紧密合作,优化端到端训练性能
- 撰写技术文档,沉淀知识体系,推动团队技术成长
任职要求必备条件
- 3年以上分布式训练相关工作经验
- 精通PyTorch分布式训练框架(DDP, FSDP, RPC等)
- 熟悉NCCL、MPI等通信库和性能优化
- 有大模型(10B+参数)分布式训练实战经验
- 熟练掌握Python和Linux环境下的开发调试
优先考虑
- 有具身智能、机器人学习相关项目经验
- 熟悉强化学习分布式训练框架(Ray, RLlib等)
- 有Kubernetes、Slurm等集群管理经验
- 在顶级会议(NeurIPS, ICML, ICLR等)发表过相关论文
- 熟悉CUDA编程和内核优化
我们提供
- 具有竞争力的薪酬待遇和股权激励
- 业界领先的计算资源(数百张A100/H800集群)
- 与顶尖团队共事的机会,参与前沿技术研发
- 良好的职业发展通道和技术成长空间