数据治理工程师/高级工程师（语料处理方向)

3-5万

北京昌平区
5-10年
硕士
全职
招2人

查看更多相似职位

职位描述

云计算/大数据人工智能

岗位职责：

1.负责大模型语料数据收集、转换、清洗、标注及相关工程设计工作。
2.负责大模型prompt工程设计工作。
3.负责构建和维护语料库，定期更新、分类和扩充语料资源。
4.与大模型团队其他成员紧密合作，确保语料供给满足项目需求。
5.负责大模型预训练、微调阶段语料数据处理新技术研究及落地。
6.负责化学公式、数学公式、特殊字符和表格的解析、处理和相关算法优化工作。

岗位要求：

1.计算机、信息系统、信息技术、商业智能、信息管理等相关专业硕士研究生及以上学历。
2.年龄一般不超过40周岁，35周岁以下优先考虑。
3.有自然语言处理、机器学习、大数据处理及信息化建设相关领域5年以上相关工作经验。具有1年以上预训练语言模型、对话系统、信息检索、信息抽取等 NLP 算法的研究和实践经历。具有1年以上化学公式、特殊字符和表格处理经验者优先。
4.技术要求：熟悉大模型AI中台语料处理工具链设计、优化，掌握语料处理流程和方法。熟练掌握Pytorch等深度学习框架、了解Spark等大数据分析工具，具备较强的算法开发能力，熟悉python、shell、C++、cuda等一种或多种编程语言。熟悉人工智能、自然语言处理常用算法，各类以transformer为基础的预训练模型，能根据论文复现相关算法，有大规模预训练模型研发和训练经验者优先。
5.综合素养：具备扎实的基础知识、具备良好的问题分析和解决能力以及良好的沟通、协调能力。

查看全部