更新于今天

文本大模型评估/评测

1.2-1.4万

北京海淀区
中关村
1-3年
本科
全职
招1人

文本分析语义分析人工智能

岗位描述：

负责大语言模型在语言能力方向（对话交互、翻译等）的质量评估体系设计与落地。从语言学与认知视角出发，与产品及研发团队协同，将语言质量、交互合理性、语义一致性等专业判断转化为结构化、可执行的评估标准与流程。
具体业务：
1、主导模型输出在多语言、多场景下的系统性评估，从准确性、流畅性、一致性等维度进行深度分析，输出高质量评估报告，为模型优化提供关键依据。
2、搭建与迭代语言能力评测框架，包括但不限于：评测指标体系设计、评测数据构建与质量控制。推动从专家评估向半自动/自动评估体系演进，提升评测效率与稳定性。
3、将定性语言判断抽象为可量化指标，设计标注规范与数据结构，构建高质量人评评测数据集；结合数据分析方法，识别模型在对话与翻译任务中的问题（如幻觉、歧义处理失败、语境理解偏差等），并推动优化闭环。
4、探索评测方法前沿，包括 LLM-as-a-judge、对抗测试、多轮对话评测、跨语言一致性评估等方向，持续优化评测方法的可靠性与可扩展性。

岗位要求：

基础要求
1、优先考虑：具备 AI 模型评测体系设计经验，或参与过 benchmark / evaluation pipeline 搭建者，学历要求可适当放宽。
2、需要具备 POC / 项目负责人意识，能够独立设计评测方案、拆解问题，并推动跨团队落地。
3、具备良好的抽象能力与结构化思维，能够在复杂语言现象中提炼共性问题；沟通表达清晰，逻辑严谨，责任心强。
4、具备优秀的项目推进能力，能够统筹评测方案设计、数据构建与跨团队协作，将评测结果有效转化为产品与模型优化策略。
学历背景要求
毕业于优秀院校（语言学、心理学、计算语言学、NLP 等相关专业优先），具备 1-3 年相关经验；或具备扎实学术背景并有明确意愿进入 AI 评测方向。

在以下一个或多个领域具备专业背景：
1、语言学 / 应用语言学：
具备扎实的语义学、语用学、语篇分析或跨文化交际基础，能够系统分析语言质量问题（如歧义、指代、语境适配等），并具备多语言理解能力者优先。
2、心理学 / 认知科学：
理解人类语言理解与生成机制（如认知负荷、对话协作原则等），能够从用户视角评估对话系统的自然性与可理解性。
3、计算语言学 / NLP 相关方向：
熟悉机器翻译、对话系统等任务的基本方法与评测指标，理解模型能力边界与常见问题类型。

核心能力要求
1、能够将定性的语言判断抽象为结构化评估维度与量化指标（如评分体系、rubric 设计等）
2、熟悉或了解主流评测框架与 benchmark，具备评测体系搭建或改造经验
3、具备数据处理与分析能力（Python / Excel / SQL 等），能够从评测数据中提炼模型问题与改进方向
4、理解大语言模型基本原理及其在对话、翻译任务中的典型表现与局限

北京海淀区e世界财富中心1

客户公司名称北京智谱华章科技股份有限公司

客户公司地址北京市中关村东路1号院9号楼10层整层北京市海淀区清华园街道中关村东路1号院9

客户公司人数 500-999人

公司介绍

四川智服是社宝信息科技（上海）有限公司的全资子公司。社宝科技，坚持以“让社会更高效”为使命，创建完善的一站式人力资源数字化服务云平台。充分融合互联网平台+SaaS云计算技术，为雇员、企业、政府及事业单位打造一站式人力资源全流程服务系统，将招聘、背调、入职、社保/公积金、商业保险、雇员福利等传统模块串联、整合，实现一体化的人力资源服务链条，帮助企业降本增效，实现价值创新。凭借优质的产品和创新的服务模式，社宝科技发展迅猛，企业综合实力快速上升!　　创始人/CEO李贤威先生，拥有丰富的人力资源行业从业经验，目前担任北京人力资源服务行业协会副会长、上海服务行业协会副会长，京津冀大数据协会人力资源大数据协会会长，还获得“中国人力资源服务业年度十大人物”、“新浪中国经济潮流人物TOP40”，“亚太人力资源服务奖——创业新星奖”、“静安区首批中青年拔尖人才”、“上海市青年创业英才”、“上海市新锐型企业家”、“中国人力资源服务100人”、“新产业经济行业榜单年度经济创业菁英”、“静安区青年拔尖人才”等荣誉称号，并入选上海“千帆行动”企业家计划。　　短短数年间，社宝科技服务超过12000家企业，涵盖互联网、餐饮、零售、快消、教育、金融、物流运输等数十个行业，累计服务人数超过100万。成为中国石化、中兴通讯、上海宝钢、碧桂园、万科、招商银行、兴业银行、东芝、美的、首旅如家、顺丰速运、圆通速递、盒马鲜生等100余家中外500强及行业标杆客户专业的人力资源合作伙伴。