高质量数据集建设专家

2.5-5万·14薪

北京海淀区
3-5年
硕士
全职
招1人

雇员点评标签

工作环境好
同事很nice
团队执行强
人际关系好
氛围活跃
交通便利
实力大公司
五险一金

职位描述

人工智能互联网

岗位职责：
1.设计并实施面向大语言模型持续预训练和后训练的高质量数据构建方案；
2.开发和优化数据合成（Data Synthesis）策略，生成高价值训练样本；
3.对现有监督微调（SFT）进行分析、清洗、增强与迭代更新，提升其多样性、难度和任务覆盖度；
4.构建高效、可扩展的高质量数据筛选体系，结合自动过滤、人工评估、模型打分等多维手段保障数据纯净度与有效性；
5、研究并落地预训练数据优化策略，包括但不限于去重、毒性过滤、知识密度提升、语言风格控制、长尾分布优化等；
6.建立数据质量评估指标与监控机制，量化数据对模型性能的影响；
7.探索数据-模型协同演进的新范式，支持模型快速迭代与垂直领域适配。
任职资格：
1.计算机、人工智能、数据科学或相关专业，硕士及以上学历；3年以上NLP/大模型相关数据工程或研究经验，深度参与过至少一个大规模语言模型的数据构建项目；
2.精通以下至少两项核心技术：
高质量文本数据合成方法（如Self-Instruct、Evolutionary Data Synthesis等）；SFT/RL数据的优化、扩展与版本管理；规模预训练语料的清洗、过滤与质量提升技术；基于模型反馈的数据筛选与主动学习策略；
3.熟悉主流大模型（如Qwen，GLM，DeepSeek，Llama）的数据构建方法；
4.对数据质量有极致追求，具备系统性思维和工程落地能力。