更新于 7月18日

多模态大模型VLA/VLM(具身智能方向)

2.5-5万
  • 北京石景山区
  • 3-5年
  • 硕士
  • 全职
  • 招2人

职位描述

人工智能
【岗位职责】
1、负责视觉语言行动模型(VLA)和视觉语言模型(VLM)的机器人感知与决策算法,实现视觉-语言-动作的端到端闭环。结合视觉、语言和动作模态,实现从多模态输入到机器人、机器狗、无人机等设备的动作输出;设计和优化模型架构,完成模型的数据处理、训练以及真机部署工作,确保模型的高效性和准确性。
2、将VLM/VLA模型部署至机器人硬件平台(如ROS、嵌入式设备),优化推理效率(模型剪枝、量化、TensorRT加速等)。设计数据闭环 pipeline,通过真实场景反馈持续迭代模型性能。
2、跟踪 VLA/VLM 领域的最新技术动态,如流匹配、动作分块架构等,探索新的模型架构和算法优化方法;深入调研具身智能领域相关的前沿技术探寻将最新技术应用到具身智能领域的可能性。
3、协同工程团队推动算法在真实机器人平台中的工程化部署;开发面向机器人任务的数据驱动训练框架,提升模型在物理场景中的泛化性与鲁棒性。
4、参与大规模多模态数据集的收集、处理和标注,为大模型预训练提供高质量的数据支持;设计具身智能领域多模态数据的采集、清洗与增强策略,建立高效数据管道。
5、参与相关技术的学术研究和论文发表,推动团队技术能力的提升。
【任职要求】
教育背景:计算机科学、人工智能、自动化、机器人技术或相关专业硕士及以上学历。
工作经验:2年以上AI算法研发经验,具备多模态大模型训练/微调项目实战经验。
技能要求:精通 Python;熟悉 PyTorch、DeepSpeed 等深度学习框架;熟悉主流VLM/VLA架构(如CLIP、LLaVA、OpenVLA、TinyVLA、π-0等),具备多模态大模型训练调优经验。
【加分项】
1、熟悉机器人仿真平台(如ISSAC Sim、Gazebo)者优先;
2、有多机、多卡的大模型训练经验优先;
3、熟悉CUDA开发生态、NCCL框架者优先;
4、在期刊会议发表过 Agent或强化学习相关研究论文者优先。

工作地点

北京石景山区双园路

职位发布者

黄珊/人事经理

立即沟通
中国电子科技集团有限公司电子科学研究院
中国电科电子科学研究院(以下简称电科院)1984年正式成立,国家级科研机构。自诞生之日起,先后承担了一大批国家重大战略工程总体任务,具备良好的创新引领力、人才凝聚力和行业影响力。在网络信息体系建设、信息技术发展战略研究、综合电子信息系统和预警指挥机研制等领域取得了丰硕成果,为国防现代化建设和国民经济发展做出了突出贡献。伟大的事业造就伟大的队伍、锻造伟大的精神,在近四十年强军报国的奋斗征程中,形成了以我国综合电子信息系统开拓者和奠基人童志鹏院士、“中国预警机之父”王小谟院士、空警2000总设计师陆军院士为代表的科学家队伍,锤炼凝结出“自力更生、协同作战、顽强拼搏、创新图强”的预警机精神,是电科院不断奋进向前的最宝贵财富和最深厚文化滋养。建院以来,先后荣获国家最高科学技术奖、国家科技进步特等奖、国家科技进步一等奖、国防科技进步特等奖等国家和省部级科学技术进步奖共110余项。强基固本,转变转型。站在新的发展关键节点上,电科院聚焦总体能力提升,奋力推进以“三基”工程为龙头的业务体系发展,广纳天下英才、诚邀各路贤能,共为民族伟业、共铸大国重器,在强军报国的伟大事业中书写人生华章、实现人生理想!
公司主页