职位描述
具体业务:
1、主导模型输出在多语言、多场景下的系统性评估,从准确性、流畅性、一致性等维度进行深度分析,输出高质量评估报告,为模型优化提供关键依据。
2、搭建与迭代语言能力评测框架,包括但不限于:评测指标体系设计、评测数据构建与质量控制。推动从专家评估向半自动/自动评估体系演进,提升评测效率与稳定性。
3、将定性语言判断抽象为可量化指标,设计标注规范与数据结构,构建高质量人评评测数据集;结合数据分析方法,识别模型在对话与翻译任务中的问题(如幻觉、歧义处理失败、语境理解偏差等),并推动优化闭环。
4、探索评测方法前沿,包括 LLM-as-a-judge、对抗测试、多轮对话评测、跨语言一致性评估等方向,持续优化评测方法的可靠性与可扩展性。
1、优先考虑:具备 AI 模型评测体系设计经验,或参与过 benchmark / evaluation pipeline 搭建者,学历要求可适当放宽。
2、需要具备 POC / 项目负责人意识,能够独立设计评测方案、拆解问题,并推动跨团队落地。
3、具备良好的抽象能力与结构化思维,能够在复杂语言现象中提炼共性问题;沟通表达清晰,逻辑严谨,责任心强。
4、具备优秀的项目推进能力,能够统筹评测方案设计、数据构建与跨团队协作,将评测结果有效转化为产品与模型优化策略。
学历背景要求
毕业于优秀院校(语言学、心理学、计算语言学、NLP 等相关专业优先),具备 1-3 年相关经验;或具备扎实学术背景并有明确意愿进入 AI 评测方向。
在以下一个或多个领域具备专业背景:
1、语言学 / 应用语言学:
具备扎实的语义学、语用学、语篇分析或跨文化交际基础,能够系统分析语言质量问题(如歧义、指代、语境适配等),并具备多语言理解能力者优先。
2、心理学 / 认知科学:
理解人类语言理解与生成机制(如认知负荷、对话协作原则等),能够从用户视角评估对话系统的自然性与可理解性。
3、计算语言学 / NLP 相关方向:
熟悉机器翻译、对话系统等任务的基本方法与评测指标,理解模型能力边界与常见问题类型。
核心能力要求
1、 能够将定性的语言判断抽象为结构化评估维度与量化指标(如评分体系、rubric 设计等)
2、熟悉或了解主流评测框架与 benchmark,具备评测体系搭建或改造经验
3、具备数据处理与分析能力(Python / Excel / SQL 等),能够从评测数据中提炼模型问题与改进方向
4、理解大语言模型基本原理及其在对话、翻译任务中的典型表现与局限
工作地点

客户公司信息
公司信息
公司介绍
四川智服是社宝信息科技(上海)有限公司的全资子公司。社宝科技,坚持以“让社会更高效”为使命,创建完善的一站式人力资源数字化服务云平台。充分融合互联网平台+SaaS云计算技术,为雇员、企业、政府及事业单位打造一站式人力资源全流程服务系统,将招聘、背调、入职、社保/公积金、商业保险、雇员福利等传统模块串联、整合,实现一体化的人力资源服务链条,帮助企业降本增效,实现价值创新。凭借优质的产品和创新的服务模式,社宝科技发展迅猛,企业综合实力快速上升! 创始人/CEO李贤威先生,拥有丰富的人力资源行业从业经验,目前担任北京人力资源服务行业协会副会长、上海服务行业协会副会长,京津冀大数据协会人力资源大数据协会会长,还获得“中国人力资源服务业年度十大人物”、“新浪中国经济潮流人物TOP40”,“亚太人力资源服务奖——创业新星奖”、“静安区首批中青年拔尖人才”、“上海市青年创业英才”、“上海市新锐型企业家”、“中国人力资源服务100人”、“新产业经济行业榜单年度经济创业菁英”、“静安区青年拔尖人才”等荣誉称号,并入选上海“千帆行动”企业家计划。 短短数年间,社宝科技服务超过12000家企业,涵盖互联网、餐饮、零售、快消、教育、金融、物流运输等数十个行业,累计服务人数超过100万。成为中国石化、中兴通讯、上海宝钢、碧桂园、万科、招商银行、兴业银行、东芝、美的、首旅如家、顺丰速运、圆通速递、盒马鲜生等100余家中外500强及行业标杆客户专业的人力资源合作伙伴。

更新于 今天






