更新于 今天

数据运营-评测工程师

1-1.5万·13薪
  • 重庆两江新区
  • 3-5年
  • 本科
  • 全职
  • 招5人

职位描述

行业数据分析数据采集电商数据运营计算机软件
岗位职责
1. 评测体系落地与迭代:主导公司头部大模型产品的全维度评测工作,严格执行评测标准,包括模型的核心能力等核心维度,输出客观、精准的评测结果。
2. Benchmark构建与优化:主动设计并生产高质量评测基准(benchmark),结合业务场景与模型迭代需求,持续丰富评测样本、优化评测指标,确保基准的科学性、针对性与时效性,为模型迭代提供核心参考依据。
3. 评测报告输出与解读:基于评测数据撰写专业评测报告,清晰呈现模型优势、短板及优化方向,为产品、算法团队提供可落地的决策建议;同步跟踪报告落地效果,形成“评测-反馈-优化”的闭环。
4. 数据供给驱动:根据评测报告结论,精准定位模型薄弱环节,制定针对性数据供给方案,主导高质量训练/微调数据的生产、筛选与标注,通过数据优化反向提升模型核心能力。
5. 评测标准沉淀:结合行业前沿与内部实践,持续迭代评测方法论、指标体系与操作流程,形成可复用的团队知识库,提升整体评测效率与质量。
任职要求
1. 学历背景:本科及以上学历,软件工程、计算机、数据科学、人工智能、统计学等相关专业,3年及以上大模型评测、数据研究相关工作经验。
2. 核心能力:深入理解大模型技术原理,熟悉大模型评测的主流方法、指标与工具,对大模型的核心能力等评测维度有实操经验。
3. 数据能力:具备扎实的数据处理、分析与可视化能力,熟练使用Python(Pandas、NumPy等)、SQL等工具,能独立完成评测数据的清洗、统计与分析。
4. 专业素养:具备敏锐的细节洞察力与判断力,能精准识别模型生成内容的质量差异(尤其是视觉taste与文本风格);逻辑严谨,善于梳理复杂问题,输出结构化报告。
5. 协作能力:具备良好的跨团队沟通与协作能力,推动评测结果与数据供给方案落地;有较强的自驱力与主动创新意识,能快速响应业务需求。
6. 加分项:有头部AI公司大模型评测、benchmark构建经验者优先;具备图片/文本质量评估、数据标注体系设计经验者优先。

工作地点

两江新区重庆两江数字经济产业园·互联网园3期-9栋

认证资质

营业执照信息

职位发布者

张春华/人事经理

昨日活跃
立即沟通