更新于 3月2日

蚂蚁核心大模型评测专家-子公司编制

1-1.5万·14薪
  • 重庆渝北区
  • 1-3年
  • 本科
  • 全职
  • 招2人

职位描述

大模型模型评测人工智能
岗位职责:
1. 评测体系落地与迭代:主导公司头部大模型产品的全维度评测工作,严格执行评测标准,包括模型的核心能力等核心维度,输出客观、精准的评测结果。
2. Benchmark构建与优化:主动设计并生产高质量评测基准(benchmark),结合业务场景与模型迭代需求,持续丰富评测样本、优化评测指标,确保基准的科学性、针对性与时效性,为模型迭代提供核心参考依据。
3. 评测报告输出与解读:基于评测数据撰写专业评测报告,清晰呈现模型优势、短板及优化方向,为产品、算法团队提供可落地的决策建议;同步跟踪报告落地效果,形成“评测-反馈-优化”的闭环。
4. 数据供给驱动:根据评测报告结论,精准定位模型薄弱环节,制定针对性数据供给方案,主导高质量训练/微调数据的生产、筛选与标注,通过数据优化反向提升模型核心能力。
5. 评测标准沉淀:结合行业前沿与内部实践,持续迭代评测方法论、指标体系与操作流程,形成可复用的团队知识库,提升整体评测效率与质量。
任职要求:
1. 学历背景:本科及以上学历,软件工程、计算机、数据科学、人工智能、统计学等相关专业,1年及以上大模型评测、数据研究相关工作经验。
2. 核心能力:深入理解大模型技术原理,熟悉大模型评测的主流方法、指标与工具,对大模型的核心能力等评测维度有实操经验。
3. 数据能力:具备扎实的数据处理、分析与可视化能力,熟练使用Python(Pandas、NumPy等)、SQL等工具,能独立完成评测数据的清洗、统计与分析。
4. 专业素养:具备敏锐的细节洞察力与判断力,能精准识别模型生成内容的质量差异(尤其是视觉taste与文本风格);逻辑严谨,善于梳理复杂问题,输出结构化报告。
5. 协作能力:具备良好的跨团队沟通与协作能力,推动评测结果与数据供给方案落地;有较强的自驱力与主动创新意识,能快速响应业务需求。
6. 加分项:有头部AI公司大模型评测、benchmark构建经验者优先;具备图片/文本质量评估、数据标注体系设计经验者优先。

工作地点

重庆渝北区蚂蚁集团

职位发布者

刘鑫/招聘专家

刚刚活跃
立即沟通
公司Logo支付宝(杭州)数字服务技术有限公司
蚂蚁集团服务商家和消费者,实现“全球收”、“全球付”、“全球汇”。通过创新的全球跨境支付解决方案,用前沿的移动支付技术构建跨境支付能力,助力全球商家一次性接入多种数字支付方式,和全球的消费者建立连接;同时也与全球科技公司、金融机构和商户广泛合作,在本地合规展业,在数字支付、数字营销、贸易金融、数字银行等领域,分享技术和行业专长,助力当地商业数字化转型升级,给世界带来微小而美好的改变。
公司主页