1、负责大模型(LLM)效果评估,优先具备数据评估经验,自动评估经验候选人(数据清洗和语料质量评估);熟悉了解模型能力评估框架和逻辑,能够探索求真,将评估尽可能贴近用户实际。
2、基于英语场景设计高效的数据处理流程与标准化评估方案,具备项目管理经验者优先。
3、分析数据分布与覆盖,识别并缓解数据偏差与漂移,保障评估数据真实,有效,深度挖掘数据背后成因
4、英语为日常工作语言,必须有代码能力,可以做自动化链路,有工作和相关经验。
- 英语为工作沟通语言,工作中能达到读写水平。
- 能在多语场景设计自动化评估体系,并有较高落地性
学历与背景:
理工科背景,硕士及以上
硬性要求2满足1:代码能力/印尼语或者西语能力