岗位信息
1.负责多种模态数据(文本/图像/视频等)采集方案设计与实施,参与大模型数据平台的系统架构设计和研发,抽象并开发高效、可靠的数据加工框架,提升处理数据的工程效率;
2.负责大模型数据仓库体系建设,参与文本、语音、图像、视频等多模态数据建模、管理、应用产品的研发工作;
3.通过爬虫技术获取各类数据,开发分布式采集系统,优化效率与质量。
职位要求
1.本科及以上学历,掌握C++、JAVA、Python或Scala语言之一,掌握hadoop、hive、hbase、Storm、spark、flink一种或者几种平台或组件的开发经验及调优方法;
2.熟悉大模型数据规范,掌握爬虫所需要的各类型技术,有千万级数据系统建设经验;
3.有大模型数据平台研发经验者优先,对大模型技术、数据中台有深入了解加分;