岗位职责:
1.负责大模型语料数据收集、转换、清洗、标注及相关工程设计工作。
2.负责大模型prompt工程设计工作。
3.负责构建和维护语料库,定期更新、分类和扩充语料资源。
4.与大模型团队其他成员紧密合作,确保语料供给满足项目需求。
5.负责大模型预训练、微调阶段语料数据处理新技术研究及落地。
6.负责化学公式、数学公式、特殊字符和表格的解析、处理和相关算法优化工作。
岗位要求:
1.计算机、信息系统、信息技术、商业智能、信息管理等相关专业硕士研究生及以上学历。
2.年龄一般不超过40周岁,35周岁以下优先考虑。
3.有自然语言处理、机器学习、大数据处理及信息化建设相关领域5年以上相关工作经验。具有1年以上预训练语言模型、对话系统、信息检索、信息抽取等 NLP 算法的研究和实践经历。具有1年以上化学公式、特殊字符和表格处理经验者优先。
4.技术要求:熟悉大模型AI中台语料处理工具链设计、优化,掌握语料处理流程和方法。熟练掌握Pytorch等深度学习框架、了解Spark等大数据分析工具,具备较强的算法开发能力,熟悉python、shell、C++、cuda等一种或多种编程语言。熟悉人工智能、自然语言处理常用算法,各类以transformer为基础的预训练模型,能根据论文复现相关算法,有大规模预训练模型研发和训练经验者优先。
5.综合素养:具备扎实的基础知识、具备良好的问题分析和解决能力以及良好的沟通、协调能力。