蚂蚁核心大模型评测专家-子公司编制

1-1.5万·14薪

重庆渝北区
1-3年
本科
全职
招2人

职位描述

大模型模型评测人工智能

岗位职责：
1. 评测体系落地与迭代：主导公司头部大模型产品的全维度评测工作，严格执行评测标准，包括模型的核心能力等核心维度，输出客观、精准的评测结果。
2. Benchmark构建与优化：主动设计并生产高质量评测基准（benchmark），结合业务场景与模型迭代需求，持续丰富评测样本、优化评测指标，确保基准的科学性、针对性与时效性，为模型迭代提供核心参考依据。
3. 评测报告输出与解读：基于评测数据撰写专业评测报告，清晰呈现模型优势、短板及优化方向，为产品、算法团队提供可落地的决策建议；同步跟踪报告落地效果，形成“评测-反馈-优化”的闭环。
4. 数据供给驱动：根据评测报告结论，精准定位模型薄弱环节，制定针对性数据供给方案，主导高质量训练/微调数据的生产、筛选与标注，通过数据优化反向提升模型核心能力。
5. 评测标准沉淀：结合行业前沿与内部实践，持续迭代评测方法论、指标体系与操作流程，形成可复用的团队知识库，提升整体评测效率与质量。
任职要求：
1. 学历背景：本科及以上学历，软件工程、计算机、数据科学、人工智能、统计学等相关专业，1年及以上大模型评测、数据研究相关工作经验。
2. 核心能力：深入理解大模型技术原理，熟悉大模型评测的主流方法、指标与工具，对大模型的核心能力等评测维度有实操经验。
3. 数据能力：具备扎实的数据处理、分析与可视化能力，熟练使用Python（Pandas、NumPy等）、SQL等工具，能独立完成评测数据的清洗、统计与分析。
4. 专业素养：具备敏锐的细节洞察力与判断力，能精准识别模型生成内容的质量差异（尤其是视觉taste与文本风格）；逻辑严谨，善于梳理复杂问题，输出结构化报告。
5. 协作能力：具备良好的跨团队沟通与协作能力，推动评测结果与数据供给方案落地；有较强的自驱力与主动创新意识，能快速响应业务需求。
6. 加分项：有头部AI公司大模型评测、benchmark构建经验者优先；具备图片/文本质量评估、数据标注体系设计经验者优先。

工作地点

重庆渝北区蚂蚁集团

完善一份简历
1736万+企业在线搜索，780万+海量职位精准推荐

相似职位

产品经理（智能体方向）8000-13000元·13薪
重庆 - 渝北
重庆昭信教育科技集团有限公司
AI数据集专家1-2万·16薪
重庆 - 渝中
重庆中电自能科技有限公司
产品经理1.2-1.8万
重庆 - 渝北
成都聚思亿科技有限公司
蚂蚁核心大模型评测专家-子公司编制1-1.5万·14薪
重庆 - 渝北
支付宝(杭州)数字服务技术有限公司
ai项目经理8000-16000元
重庆 - 两江新区
重庆海燊云计算有限公司
ai产品经理1.5-1.8万
重庆 - 渝北
成都聚思亿科技有限公司

查看更多相似职位

职位发布者

刘鑫/招聘专家

刚刚活跃

立即沟通

支付宝(杭州)数字服务技术有限公司

蚂蚁集团服务商家和消费者，实现“全球收”、“全球付”、“全球汇”。通过创新的全球跨境支付解决方案，用前沿的移动支付技术构建跨境支付能力，助力全球商家一次性接入多种数字支付方式，和全球的消费者建立连接；同时也与全球科技公司、金融机构和商户广泛合作，在本地合规展业，在数字支付、数字营销、贸易金融、数字银行等领域，分享技术和行业专长，助力当地商业数字化转型升级，给世界带来微小而美好的改变。

公司主页

关于我们: 公司介绍; 联系我们; 诚聘英才

产品与服务: 人才招聘; 企业招聘

使用与帮助: 账号注销; 意见反馈; 发票制度; 防骗指南; 法律协议; 资质公示

智联招聘更懂你的价值

智联app小程序官方微信企业版APP

京ICP备12025925号京ICP证010207号

京公网安备 11010502059392号人力资源许可证:1101051996081号

网上有害信息举报专区违法不良信息举报电话:400-885-9898 关爱未成年举报热线:400-885-9898-3

朝阳区人力资源与社会保障局监督电话

网络110报警服务电子营业执照