更新于 1月15日

Ai评测模型

3000-4000元
  • 西安雁塔区
  • 1年以下
  • 大专
  • 全职
  • 招1人

雇员点评标签

  • 同事很nice
  • 工作环境好
  • 人际关系好
  • 氛围活跃
  • 团队执行强
  • 管理人性化
  • 准时发工资
  • 实力大公司

职位描述

数据标注模型评测
一、岗位职责
1. AI 模型评测数据标注
对比多个大模型(如 Qwen、DeepSeek、GPT-4o 等)在高德真实用户 Query 上的输出结果;
根据预定义的意图分类体系、任务完成度、事实准确性、用户体验等维度,进行人工打分或排序;
标注模型输出中的错误类型(如幻觉、意图错判、信息缺失、格式错误等);
参与 MAD-style 高分歧样本挖掘,帮助识别模型能力边界。
2. 大模型训练样本标注(SFT / RAG)
对用户原始 Query 进行结构化改写与增强(如补全模糊需求、标准化表达);
基于商品库、POI 信息、交通规则等知识,生成高质量、可执行的结构化输出(如 JSON 格式的票品选择、路线规划);
对大模型生成的候选答案进行Best-of-N 精筛,选出最符合用户意图和业务规则的版本;
参与多轮对话状态标注,识别用户当前任务阶段(如确认、追问、切换意图等)。
项目亮点 我们正在建设新一代 AI Native 出行与本地生活智能体,希望通过高质量的训练数据和评测数据,让模型真正“听得懂用户、帮得上忙”。
你将参与到地图 AI 能力的核心建设中,为大模型的训练与评估制作高质量样本,直接影响 AI 在导航、打车、门票交易、本地生活推荐等关键场景下的表现。站在真实用户视角,判断什么是一个“好答案”“好推荐”“好决策”,帮助我们持续提升模型的智能和用户体验。
职位要求 必备技能:
细致严谨,能严格遵守标注规范、输出格式
良好的中文理解与表达能力,能处理口语、省略、指代、多轮对话
对地图/出行/本地生活场景有基本使用经验(导航、打车、找店、购票等)
能识别常见错误类型:意图误判、上下文断裂、事实不一致、编造、参数缺失等
熟练使用在线标注平台/Excel/表格工具

加分点 有NLP/LLM评测或对话标注经验(MT-Bench、偏好比较、rubric打分等)
能理解基础的地理/交通常识(本地熟悉/异地、路线与时间距离常识)
有QA/测试经验,能做一致性复核与错因归类

工作地点

雁塔区阿里中心·西安1

职位发布者

王燕/HR

三日内活跃
立即沟通
公司Logo中电金信软件有限公司公司标签
中电金信,是中国电子旗下成员企业,通过持续研发创新,参与国家重大工程,依托行业场景,构建金融级数字底座,打造全栈全域解决方案,提供领先的咨询、软件产品及开发、质量安全保障及运营服务,为金融及重点行业数智化转型及安全发展提供强大动能,并以中国数智化转型最佳实践服务全球。我们推崇开放包容的文化。在中电金信,你将和同样拥有热情和梦想的优秀队友一起合作、交流和学习,稳扎稳打不断提升,和团队一起助力国家重大工程项目。我们为你提供清晰的职业路径和不设限的发展机会,你将通过不同类型的项目不断成长,获得前所未有的荣耀感和使命感,和我们一起去创造数字时代的美好未来。
公司主页