更新于 12月18日

具身模型分布式训练师

3-6万·14薪
  • 深圳南山区
  • 3-5年
  • 本科
  • 全职
  • 招5人

职位描述

人工智能
职位概述
我们正在寻找一位资深具身模型分布式训练师,负责领导大规模具身智能模型的分布式训练工作。您将参与构建业界领先的机器人智能系统,推动具身智能技术的边界。
核心职责
1、技术研发与实现
  • 设计并实施大规模具身模型的分布式训练架构,包括数据并行、模型并行、流水线并行等策略
  • 开发和优化多机多卡环境下的训练框架,提升训练效率和系统稳定性
  • 构建高效的分布式仿真环境,支持大规模并行数据收集和策略评估
  • 实现混合并行训练方案,优化通信开销和计算资源利用率
2、系统优化与性能调优
  • 分析和解决分布式训练中的性能瓶颈,包括通信、内存、计算等方面
  • 开发梯度同步优化、通信压缩、重叠计算等性能优化技术
  • 设计和实施容错机制,确保长时间训练的稳定性和可靠性
  • 优化GPU显存使用,支持更大模型和批次的训练
3、算法创新与应用
  • 研究和应用最新的分布式训练算法,如ZeRO、MoE等先进技术
  • 开发适应具身智能特点的训练策略,包括多任务学习、元学习、课程学习等
  • 设计高效的强化学习分布式训练框架,支持离线与在线混合训练
  • 探索仿真到实物的迁移学习技术,提升模型在真实环境中的表现
4、工程部署与运维
  • 构建自动化训练流水线,实现模型训练、评估、部署的全流程管理
  • 开发训练监控系统,实时跟踪训练状态、资源使用和性能指标
  • 设计和维护多集群训练环境,支持弹性扩缩容和资源调度
  • 建立模型版本管理和实验追踪体系
5、团队协作与指导
  • 领导技术方案设计和代码审查,确保代码质量和系统可靠性
  • 指导初级工程师,分享分布式训练的最佳实践和经验
  • 与算法团队、硬件团队紧密合作,优化端到端训练性能
  • 撰写技术文档,沉淀知识体系,推动团队技术成长
任职要求必备条件
  • 3年以上分布式训练相关工作经验
  • 精通PyTorch分布式训练框架(DDP, FSDP, RPC等)
  • 熟悉NCCL、MPI等通信库和性能优化
  • 有大模型(10B+参数)分布式训练实战经验
  • 熟练掌握Python和Linux环境下的开发调试
优先考虑
  • 有具身智能、机器人学习相关项目经验
  • 熟悉强化学习分布式训练框架(Ray, RLlib等)
  • 有Kubernetes、Slurm等集群管理经验
  • 在顶级会议(NeurIPS, ICML, ICLR等)发表过相关论文
  • 熟悉CUDA编程和内核优化
我们提供
  • 具有竞争力的薪酬待遇和股权激励
  • 业界领先的计算资源(数百张A100/H800集群)
  • 与顶尖团队共事的机会,参与前沿技术研发
  • 良好的职业发展通道和技术成长空间

工作地点

南山区零次方机器人(深圳)有限公司

职位发布者

刘女士/人力总监

昨日活跃
立即沟通
公司Logo合肥零次方机器人有限公司
零次方(Zerith),作为国内首家实现专项场景长序列、多任务连贯操作的机器人先锋企业,正以“通用具身智能服务千行百业、千家万户”为使命,推动机器人技术走进现实场景、走向全球市场。我们已完成以合肥、深圳、日本东京为核心的国际化布局,融合顶尖研发、丰富场景与海外拓展能力,构建起跨越边界的创新平台。创始团队源自清华深圳国际研究生院智能机器人实验室,拥有十余年机器人底层技术积累与工程落地经验。在这里,我们已搭建起覆盖“运动控制-具身操作-机器人本体-数据工具链”的具身智能全链路技术体系,真正实现从技术到产品的闭环。【目前重点业务方向包括】科研教育:提供机器人本体及先进控制算法研究支持商业服务:打造“机器人+场景大模型+解决方案”的一体化服务体系数据智能:通过“全态”数据解决方案,破解行业数据采集难、管理复杂、训练门槛高的核心痛点如果你渴望参与定义下一代机器人的智能内核,如果你希望在一个技术扎实、场景丰富、视野全球的平台上快速成长,零次方将为你提供:✓涵盖人形机器人、轮臂机器人的多元技术赛道✓从算法研发到产品落地的全链路参与机会✓深度参与构建数据采训推工具链的前沿实践✓与清华背景核心技术团队并肩成长的宝贵机遇加入我们,共同打造能够走进千家万户、服务千行百业的机器人未来。零次方,期待与敢想敢做的你,携手开启具身智能的新篇章!
公司主页