更新于 12月10日

模型评估与测试工程师

1.5-2.4万
  • 北京海淀区
  • 1-3年
  • 本科
  • 全职
  • 招1人

职位描述

Python自动化测试模型性能测试真机测试机器人与仿真技术AI模型ROS/ROS2具身智能深度分析安全验证人工智能
【岗位职责】
1 、评估体系与基准构建
负责设计、构建和维护具身大脑模型的端到端评估体系,定义科学、全面的评估指标,涵盖任务成功率、效率、鲁棒性、泛化能力、安全性等多个维度。主导开发和维护标准化的评估基准,涵盖仿真环境(如Libero、CALVIN、自定义场景)和真实机器人任务,确保评估的可比性和可复现性。
2 、自动化测试与流水线开发
开发自动化的模型测试框架和CI/CD流水线,实现模型更新后的自动化回归测试,快速发现性能衰退和功能缺陷。设计并实现多样化的测试用例,包括正常场景、边界场景和异常场景,系统性地挖掘模型潜在问题。
3 、模型性能评估与深度分析
执行大规模的模型评估实验,收集、整理和分析海量评估数据,生成清晰的评估报告和可视化图表,为模型迭代提供数据驱动的决策支持。对模型失败案例进行深入的根本原因分析,定位问题是出在感知、规划、决策还是控制环节,并形成详细的“Bug Report”反馈给算法团队。
4 、真机测试与安全验证
负责模型在真实机器人(机械臂、机器狗、无人机)上的部署测试,制定并执行严格的安全测试协议,确保测试过程的人员和设备安全。在真实环境中验证模型的Sim2Real效果,评估其在光照变化、背景干扰、硬件噪声等复杂条件下的实际表现。
5 、评估工具与平台开发
开发和维护可视化的评估结果展示平台(Dashboard),让团队成员能直观地了解模型性能、对比不同版本、追踪关键指标。编写和维护评估相关的技术文档、测试规范和操作手册,提升团队评估工作的规范化和效率。
【岗位要求】
1 、学历与专业背景
计算机科学、机器人、自动化、电子信息等相关专业本科及以上学历,拥有2年以上AI模型测试、机器人系统测试或相关质量保证经验。
2 、核心测试与评估能力
深刻理解AI模型(特别是多模态模型、强化学习模型)的评估方法论,熟悉准确率、召回率、F1-score等传统指标,并理解任务成功率、样本效率、鲁棒性等具身智能专属指标。具备优秀的测试用例设计能力,能够从用户需求和系统架构出发,设计出覆盖全面、重点突出的测试方案。
3、 机器人与仿真技术
熟悉ROS/ROS2,能够使用ROS工具链监控机器人状态、发布指令和分析日志。熟练使用至少一种主流仿真环境(如Gazebo、Isaac Sim、AirSim),能够在仿真中搭建测试场景并执行自动化测试。
4 、编程与工具能力
精通Python,具备扎实的脚本开发和自动化能力,熟悉pytest等测试框架。
熟悉数据处理和可视化库,如Pandas、NumPy、Matplotlib、Seaborn,能够高效地处理和分析评估数据。有使用Weights & Biases (WB)、MLflow等实验管理工具的经验者优先。
5、 AI模型理解
对具身智能有浓厚兴趣,了解VLA模型、强化学习、多模态融合等基本概念,不需要会设计模型,但需要理解其输入、输出和基本工作原理。有阅读和理解AI模型技术文档的能力,能够与算法工程师进行高效的技术沟通。
6 、软技能与综合素质
具备极强的细心、耐心和责任心,对发现问题和追踪问题根源有强烈热情。
具备出色的逻辑思维能力和问题分析能力,能够从复杂的现象中定位问题的本质。具备良好的沟通能力和团队协作精神,能够清晰、准确地描述问题,并推动问题解决。

工作地点

北京海淀区中关新园壹号北清路81号院AI楼21层

职位发布者

潘靖雯/HRM

昨日活跃
立即沟通
公司Logo北京清创智科科技有限公司
同方股份有限公司成立于1997年6月,由清华大学出资成立的高科技上市企业。2019年12月,同方股份控股股东由清华控股变更为中国核工业集团,成为中核集团控股企业。北京清创智科科技有限公司(原北京同方智科科技有限公司)成立于2005年,隶属于同方股份科工产业本部,同方军工产业的骨干企业之一,中核下属的军工企业,是清华大学与同方整体技术力量资源对军队服务的窗口。公司具备完善的军工资质,具有人工智能模型和大模型应用开发工具和智能仿真推演工具,常年从事军工人工智能业务,为多家单位提供人工智能开发平台智能仿真平台和指挥决策类,装备类,训练类智能模型和智能体,应用在情报处理,作战筹划,仿真推演,作战评估等多个环节。公司战略定位:“专业的AI学习平台+领先的军事决策智能”公司主营业务:基于自身技术积累,依托清华大学的科研实力与人才平台,建立以人工智能强化学习平台、模拟仿真、大模型微调管理工具集为产品,军事智能应用为核心方向的业务发展体系。公司技术方向:基于深度学习、强化学习、大模型、并行计算等相关技术,自主研发军工级智能体开发平台,推动大模型从“生成式AI”到“生产力”,提供大模型落地应用底层技术,推动大模型完成落地最后一公里,完成可信自主智能体生成替代传统AI应用方式,致力于帮助客户构建私有、安全、可信的AI系统。
公司主页