更新于 今天

Python数据工程(爬虫/LLM/ETL)

1.6-2万
  • 北京 昌平区
  • 3-5年
  • 本科
  • 全职
  • 招1人

职位描述

反爬虫数据清洗PythonSparkScrapyDataStageDataXFlask生物工程医药制造在线医疗
岗位职责
1.负责生物医药领域数据的 ETL 全流程开发与维护,包括数据抽取(对接内外部数据源)、清洗、转换、加载,保障数据质量与传输效率;
2.设计并实现定向爬虫方案,采集生物医药相关公开数据(如文献、临床试验信息、靶点数据等),解决反爬、数据异构等问题;
3.参与 LLM(大语言模型)+RAG(检索增强生成)相关的数据工程工作,包括知识库构建、向量数据库设计与优化、数据分片 / 索引策略制定,支撑生物医药场景的大模型应用落地;
4.维护数据管道的稳定性与可扩展性,监控数据流转状态,及时排查并解决数据处理过程中的异常问题;
5.与算法、研发、业务团队协作,理解 AI 应用需求,输出符合大模型训练 / 推理要求的结构化、高质量数据。
任职要求
1.本科及以上学历,计算机、软件工程、数据科学、生物信息学等相关专业;
2 年及以上数据工程相关工作经验,熟练掌握 ETL 流程设计与开发,精通至少一种 ETL 工具(如 Airflow、DataWorks、Talend 等);
3.具备爬虫开发实战经验,熟练使用 Python(Scrapy、Requests、BeautifulSoup 等)编写爬虫,了解反爬机制及应对策略;
4.了解 LLM 与 RAG 技术原理,有 RAG 相关数据工程经验(如向量数据库使用、知识库构建、数据预处理适配大模型)优先;
5.熟悉至少一种数据库(MySQL/PostgreSQL 等关系型数据库,Elasticsearch/Milvus/Pinecone 等向量数据库),具备数据建模能力;

工作地点

工作地点
昌平区百济神州(北京)生物科技有限公司1
位置图标
完善简历

入职公司信息

入职公司 某科技公司
公司地址 上海静安区
公司人数 1000-9999人

公司信息

英特利普(上海)信息技术有限公司

不需要融资 · 100-299人 · 人力资源服务、人力资源服务 已审核 已审核

10 个在招职位

公司介绍

英特利普集团创立于2009年,是一家总部位于美国硅谷的顶尖人才生态管理咨询及人力资源解决方案供应商。22年营收过亿美金,服务包括:高端招聘,高端海外校招,雇主品牌搭建,企业业务咨询,国际化咨询等服务。

工商信息

企业名称 英特利普(上海)信息技术有限公司
企业类型 有限责任公司(自然人投资或控股)
法人代表 詹昊鹏
经营状态 存续
成立时间 2020-10-22
注册资本 3000万元
查看全部信息

认证资质

营业执照信息 人力资源服务许可证

相似职位

查看更多

爬虫工程师

7000-10000元
黑龙江省荣世信息科技产业有限公司
1-3年 本科 反爬虫 分布式爬虫 数据挖掘 法律服务 计算机软件 IT服务

python爬虫工程师

1.6-3万
北京保盛航空服务有限公司
3-5年 大专 Python JavaScript SQL 数据挖掘 爬虫开发

python爬虫工程师

9000-14000元
洞悉网络
1-3年 大专 Python 反爬虫 分布式爬虫

python爬虫工程师

1-2万
位来小猎(宁波)信息技术有限公司
3-5年 本科 Python 分布式爬虫 反爬虫 爬虫开发 数据采集 数据清洗

后端工程师

1.6-2.2万
北京通合智能科技有限公司
3-5年 本科 爬虫开发 分布式爬虫 反爬虫 云计算/大数据 计算机软件

数据工程师(爬虫方向)

1.2-2万
玉京(深圳)量子科技有限公司
3-5年 本科 Python SQL 数据采集 数据清洗 反爬虫 分布式爬虫 爬虫开发 人工智能 互联网 运营商/增值服务 专业技术服务
最新招聘
热门城市
热门职位
热门公司