岗位职责
1.参与大模型多模态融合能力(文中出图、视频/笔记挂载等)评测工作,严格遵循项目评测规则,保质保量完成各类评测任务,确保评测数据的质量。
2.熟练掌握并精准应用大模型数据的评测规则,在执行过程中及时反馈规则岐义点或不合理之处,积极跟进和反馈大模型文本生成效果情况;
3.负责对组内人员的标注数据进行质检和验收,对组员的评测错误进行专业指导和答疑,提升团队整体标注准确率;复盘和分享优质评测经验与技巧。
4.及时响应并完成上级派发的各项任务,定期同步工作进度、遇到的问题及阶段性成果,保障项目整体推进节奏。
任职要求
1.本科及以上学历(必需),中文、汉语言文学等专业优先;大模型评测经验丰富者可放宽专业限制。
2.1年及以上Al大模型评测经验,熟悉大模型评测全流程,具备多模态(图片/视频)数据处理经验者优先。
3.掌握文本生成质量评估维度(如相关性,全面性,准确性)了解图片视频类挂载数据的评测标准,能精准识别多模态内容的完整性、合规性及与文本指令的匹配度
4.参与过主流大模型文本/多模态评测,如豆包、微博智搜、小红书搜搜薯、抖音大模型问答卡、文心一言等(加分项)。
5.具备良好的理解能力、逻辑分析能力,有较强的学习能力,可快速活配大横型评测规则的选代更新,有较湖的数据敏感度,能从用户体验和模型能力多视角判断大横型生成质量
6.能清晰反馈规则疑问与工作难点;具备高度的责任心与细致度,能承受一定的工作压力,确保评测任务按时交付。
需要文本多模态融合的评测经验且侧重文本能力,非文生图、文生视频