更新于 3月30日

AI数据工程师（反爬虫/LLM/ETL）

1.6-2万

北京昌平区
3-5年
本科
全职
招1人

ETLPythonHadoopSpark反爬虫LLM

岗位职责
1.负责生物医药领域数据的 ETL 全流程开发与维护，包括数据抽取（对接内外部数据源）、清洗、转换、加载，保障数据质量与传输效率；
2.设计并实现定向爬虫方案，采集生物医药相关公开数据（如文献、临床试验信息、靶点数据等），解决反爬、数据异构等问题；
3.参与 LLM（大语言模型）+RAG（检索增强生成）相关的数据工程工作，包括知识库构建、向量数据库设计与优化、数据分片 / 索引策略制定，支撑生物医药场景的大模型应用落地；
4.维护数据管道的稳定性与可扩展性，监控数据流转状态，及时排查并解决数据处理过程中的异常问题；
5.与算法、研发、业务团队协作，理解 AI 应用需求，输出符合大模型训练 / 推理要求的结构化、高质量数据。
任职要求
1.本科及以上学历，计算机、软件工程、数据科学、生物信息学等相关专业；
2 年及以上数据工程相关工作经验，熟练掌握 ETL 流程设计与开发，精通至少一种 ETL 工具（如 Airflow、DataWorks、Talend 等）；
3.具备爬虫开发实战经验，熟练使用 Python（Scrapy、Requests、BeautifulSoup 等）编写爬虫，了解反爬机制及应对策略；
4.了解 LLM 与 RAG 技术原理，有 RAG 相关数据工程经验（如向量数据库使用、知识库构建、数据预处理适配大模型）优先；
5.熟悉至少一种数据库（MySQL/PostgreSQL 等关系型数据库，Elasticsearch/Milvus/Pinecone 等向量数据库），具备数据建模能力；

昌平区百济神州(北京)生物科技有限公司1

入职公司某科技公司

公司地址上海静安区

公司人数 1000-9999人

公司介绍

英特利普集团创立于2009年，是一家总部位于美国硅谷的顶尖人才生态管理咨询及人力资源解决方案供应商。22年营收过亿美金，服务包括：高端招聘，高端海外校招，雇主品牌搭建，企业业务咨询，国际化咨询等服务。

工商信息

企业名称英特利普（上海）信息技术有限公司

企业类型有限责任公司（自然人投资或控股）

法人代表詹昊鹏

经营状态存续

成立时间 2020-10-22

注册资本 3000万元

查看全部信息

营业执照信息人力资源服务许可证

能科瑞元

3-5年大专 Sql 测试

中科软科技股份有限公司

5-10年本科五险一金年终奖绩效奖金 Spark Flink ClickHouse Elasticsearch Kafka 数据挖掘数据中台数据库开发计算机软件

杭州剑齿虎企业管理咨询有限公司

1-3年本科 Hadoop Flink

京北方

5-10年本科数据仓库数据中台开发 Java Python Hadoop Flink 银行 Sql ETL

天维讯达(北京)科技有限公司

硕士补充医疗保险体检福利提成带薪假期 Java Python 数据库开发 Hadoop

北京央央好物电子商务有限公司

3-5年本科数据仓库电子商务向量数据库大规模数据计算 Sql Python Java Kafka

北京青钱信息技术有限公司

3-5年本科 Sql Hadoop 保险

去哪儿网（Qunar.com）

5-10年本科 Sql Java Python Spark Kafka

1-3年本科 Sql Hadoop

3-5年本科数据治理

3-5年本科 Java Python

本科 Sql Python Java ETL 数据仓库

3-5年本科数据库开发数据中台开发

1-3年本科数据治理 ETL CDMP

3-5年本科数据建模

硕士数据架构

3-5年本科 Hadoop hive Java Python

中科软科技股份有限公司

3-5年本科五险一金有餐补带薪假期体检福利节日慰问周末双休数据运维 ETL开发报表开发数据平台数据建模数据集市数仓开发 Hbase

中科软科技股份有限公司

1-3年本科 Hive HBase Spark Kafka Flume 数据中台开发 Sql Hadoop Shell 数据仓库

卓望信息技术(北京)有限公司

5-10年本科数据库开发

科美诊断技术股份有限公司

3-5年本科 Sql Java Python

智联招聘

5-10年本科数据架构 ETL Sql

航天物联网技术有限公司

3-5年本科数据治理数据架构数据挖掘 Java Sql Python Hadoop Flink Kafka

京东集团

3-5年本科数据架构数据挖掘数据建模 Sql Java Python Hadoop Flink Spark

3-5年数据迁移 Sql Shell

3-5年本科 hive 数据开发

3-5年本科 Hadoop Flink

本科数据仓库 ETL Sql

3-5年本科数据建模 ETL

硕士数据治理

本科

硕士

3-5年本科 PAIMON STARROCKS 大数据湖仓一体数据湖

中国联通

硕士

梅赛德斯一奔驰(中国)投资有限公司

5-10年本科数据工程师

深圳万科祥盈管理服务有限公司

5-10年本科数据治理 ETL

合肥事业会计招聘吉林市求职工作郑州大学自动化类专业找工作煤炭企业社会招聘中国黄金集团年招聘官网食品药品检验所招聘岗位医疗事业单位九江面试吉安保安招聘广州生物医药领域公司招聘西安政府招聘信息平台和田闪耀丝绸编织服务有限公司北京承序科技发展有限公司长沙纯悦酒店管理有限公司重庆市梁平区宏源电子产品经营部郭航（北京）生命科技有限公司潍坊宇耀影莘信息咨询有限公司商丘市天博大药房连锁有限公司蓬莱路店汾阳市城源酒类销售部邯郸市邯山区河沙镇新四季水果店重庆泓微生物科技有限责任公司

AI数据工程师（反爬虫/LLM/ETL）

职位描述

工作地点

入职公司信息

公司信息

公司介绍

工商信息

认证资质

相似职位

数据开发+测试

大数据开发工程师

初级大数据工程师

大数据开发工程师

大数据工程师

数据开发工程师

大数据开发工程师（保险经验-统本）

数据开发工程师

数据开发（北京 学信网可查）

数据开发工程师

大数据开发工程师

数据开发工程师

大数据开发工程师

中级数据工程师

华为大数据开发工程师（能带团队）

数智研发工程师(J11919)

大数据开发工程师

数据开发工程师

大数据开发工程师

大数据平台开发 (MJ000721)

大数据开发工程师

数据开发工程师

数据开发工程师（工具链方向）

数据平台开发工程师（数据+软开）

大数据开发（出差项目）

数据开发工程师

中级大数据工程师

数据开发岗

医疗数据建模-北京

数据治理工程师

【留用实习】数据研发工程师

开发工程师（数据方向）

数据湖开发工程师

大数据工程师

Data Engineer ID201979

北京-精算系统数据开发/保险/金融

数据开发（北京学信网可查）