【岗位职责】
1 、评估体系与基准构建
负责设计、构建和维护具身大脑模型的端到端评估体系,定义科学、全面的评估指标,涵盖任务成功率、效率、鲁棒性、泛化能力、安全性等多个维度。主导开发和维护标准化的评估基准,涵盖仿真环境(如Libero、CALVIN、自定义场景)和真实机器人任务,确保评估的可比性和可复现性。
2 、自动化测试与流水线开发
开发自动化的模型测试框架和CI/CD流水线,实现模型更新后的自动化回归测试,快速发现性能衰退和功能缺陷。设计并实现多样化的测试用例,包括正常场景、边界场景和异常场景,系统性地挖掘模型潜在问题。
3 、模型性能评估与深度分析
执行大规模的模型评估实验,收集、整理和分析海量评估数据,生成清晰的评估报告和可视化图表,为模型迭代提供数据驱动的决策支持。对模型失败案例进行深入的根本原因分析,定位问题是出在感知、规划、决策还是控制环节,并形成详细的“Bug Report”反馈给算法团队。
4 、真机测试与安全验证
负责模型在真实机器人(机械臂、机器狗、无人机)上的部署测试,制定并执行严格的安全测试协议,确保测试过程的人员和设备安全。在真实环境中验证模型的Sim2Real效果,评估其在光照变化、背景干扰、硬件噪声等复杂条件下的实际表现。
5 、评估工具与平台开发
开发和维护可视化的评估结果展示平台(Dashboard),让团队成员能直观地了解模型性能、对比不同版本、追踪关键指标。编写和维护评估相关的技术文档、测试规范和操作手册,提升团队评估工作的规范化和效率。
【岗位要求】
1 、学历与专业背景
计算机科学、机器人、自动化、电子信息等相关专业本科及以上学历,拥有2年以上AI模型测试、机器人系统测试或相关质量保证经验。
2 、核心测试与评估能力
深刻理解AI模型(特别是多模态模型、强化学习模型)的评估方法论,熟悉准确率、召回率、F1-score等传统指标,并理解任务成功率、样本效率、鲁棒性等具身智能专属指标。具备优秀的测试用例设计能力,能够从用户需求和系统架构出发,设计出覆盖全面、重点突出的测试方案。
3、 机器人与仿真技术
熟悉ROS/ROS2,能够使用ROS工具链监控机器人状态、发布指令和分析日志。熟练使用至少一种主流仿真环境(如Gazebo、Isaac Sim、AirSim),能够在仿真中搭建测试场景并执行自动化测试。
4 、编程与工具能力
精通Python,具备扎实的脚本开发和自动化能力,熟悉pytest等测试框架。
熟悉数据处理和可视化库,如Pandas、NumPy、Matplotlib、Seaborn,能够高效地处理和分析评估数据。有使用Weights & Biases (WB)、MLflow等实验管理工具的经验者优先。
5、 AI模型理解
对具身智能有浓厚兴趣,了解VLA模型、强化学习、多模态融合等基本概念,不需要会设计模型,但需要理解其输入、输出和基本工作原理。有阅读和理解AI模型技术文档的能力,能够与算法工程师进行高效的技术沟通。
6 、软技能与综合素质
具备极强的细心、耐心和责任心,对发现问题和追踪问题根源有强烈热情。
具备出色的逻辑思维能力和问题分析能力,能够从复杂的现象中定位问题的本质。具备良好的沟通能力和团队协作精神,能够清晰、准确地描述问题,并推动问题解决。