职位描述
ETLPythonHadoopSpark反爬虫LLM
岗位职责
1.负责生物医药领域数据的 ETL 全流程开发与维护,包括数据抽取(对接内外部数据源)、清洗、转换、加载,保障数据质量与传输效率;
2.设计并实现定向爬虫方案,采集生物医药相关公开数据(如文献、临床试验信息、靶点数据等),解决反爬、数据异构等问题;
3.参与 LLM(大语言模型)+RAG(检索增强生成)相关的数据工程工作,包括知识库构建、向量数据库设计与优化、数据分片 / 索引策略制定,支撑生物医药场景的大模型应用落地;
4.维护数据管道的稳定性与可扩展性,监控数据流转状态,及时排查并解决数据处理过程中的异常问题;
5.与算法、研发、业务团队协作,理解 AI 应用需求,输出符合大模型训练 / 推理要求的结构化、高质量数据。
任职要求
1.本科及以上学历,计算机、软件工程、数据科学、生物信息学等相关专业;
2 年及以上数据工程相关工作经验,熟练掌握 ETL 流程设计与开发,精通至少一种 ETL 工具(如 Airflow、DataWorks、Talend 等);
3.具备爬虫开发实战经验,熟练使用 Python(Scrapy、Requests、BeautifulSoup 等)编写爬虫,了解反爬机制及应对策略;
4.了解 LLM 与 RAG 技术原理,有 RAG 相关数据工程经验(如向量数据库使用、知识库构建、数据预处理适配大模型)优先;
5.熟悉至少一种数据库(MySQL/PostgreSQL 等关系型数据库,Elasticsearch/Milvus/Pinecone 等向量数据库),具备数据建模能力;
1.负责生物医药领域数据的 ETL 全流程开发与维护,包括数据抽取(对接内外部数据源)、清洗、转换、加载,保障数据质量与传输效率;
2.设计并实现定向爬虫方案,采集生物医药相关公开数据(如文献、临床试验信息、靶点数据等),解决反爬、数据异构等问题;
3.参与 LLM(大语言模型)+RAG(检索增强生成)相关的数据工程工作,包括知识库构建、向量数据库设计与优化、数据分片 / 索引策略制定,支撑生物医药场景的大模型应用落地;
4.维护数据管道的稳定性与可扩展性,监控数据流转状态,及时排查并解决数据处理过程中的异常问题;
5.与算法、研发、业务团队协作,理解 AI 应用需求,输出符合大模型训练 / 推理要求的结构化、高质量数据。
任职要求
1.本科及以上学历,计算机、软件工程、数据科学、生物信息学等相关专业;
2 年及以上数据工程相关工作经验,熟练掌握 ETL 流程设计与开发,精通至少一种 ETL 工具(如 Airflow、DataWorks、Talend 等);
3.具备爬虫开发实战经验,熟练使用 Python(Scrapy、Requests、BeautifulSoup 等)编写爬虫,了解反爬机制及应对策略;
4.了解 LLM 与 RAG 技术原理,有 RAG 相关数据工程经验(如向量数据库使用、知识库构建、数据预处理适配大模型)优先;
5.熟悉至少一种数据库(MySQL/PostgreSQL 等关系型数据库,Elasticsearch/Milvus/Pinecone 等向量数据库),具备数据建模能力;
工作地点
昌平区百济神州(北京)生物科技有限公司1

入职公司信息
入职公司 某科技公司
公司地址 上海静安区
公司人数 1000-9999人
认证资质
营业执照信息 人力资源服务许可证

更新于 3月30日



