更新于 今天

AI数据工程(反爬虫/ETL/LLM)

2-2.5万·13薪
  • 上海 浦东新区
  • 5-10年
  • 本科
  • 全职
  • 招1人

职位描述

PythonDjangoFlaskMySQL爬虫LLMETL生物/制药
职位概述:
作为DS&AI团队的数据基石,你将负责构建一套能够支撑前沿AI模型与AI Agent运行的数据生态。你的核心任务是整合全球专业生物医药数据库,并利用大语言模型(LLM)从内外部海量文档中自动化提取关键科学信息,最终打造一个结构化、高性能、可被AI Agent高效调用以及训练AI模型的科学数据底座。
核心职责:
1. 科学数据整合与流水线建设:
· 专业库对接: 负责从 ChEMBL, PubChem, UniProt等主流生物医药数据库中提取、解析并集成数据。
· ETL流程维护: 设计并维护自动化的数据清洗、标准化流水线,处理实验数据(Assay Data)中的冗余与缺失,确保数据对AI模型的一致性。
· 数据质量监控: 建立严谨的数据校验规则,确保整合后的科学数据在结构化程度和准确性上达到模型训练标准。
2. 多源数据采集与智能信息提取:
· 多维数据抓取: 针对外部文献(PubMed, arXiv)、专利网站及行业动态,开发高效的自动化爬虫系统,作为标准库的数据补充。
· 内外部文档智能解析: 利用 LLM和OCR技术,深度解析外部专利/论文及内部科研报告/实验记录等非结构化文档。
· 知识自动化: 负责将提取出的零散信息转化为结构化数据,持续丰富企业内部的科学知识库。
3. AI Agent 数据底座建设:
· Agent 数据支撑: 负责打造服务于 AI Agent 的数据基础设施,包括但不限于构建和维护结构化数据库,向量数据库 (Vector DB) 和图数据库 (Graph DB)。
· 工具接口开发: 为 AI Agent 规划并开发标准化的一套数据查询工具,使其能够自主、精准地检索并调用底层科学数据。
任职要求:
· 教育背景: 计算机、生物信息学、化学信息学、计算生物学或相关专业背景。
· 行业背景:
o 熟悉常用的生物医药数据库(如 ChEMBL, UniProt, PubChem 等)的数据组织逻辑。
o 对小分子结构、蛋白质序列等科学数据格式有基础了解。
· 编程与数据能力:
o 精通 Python,具备扎实的数据清洗(Pandas, NumPy)和 SQL 数据库操作能力。
o 具备网络爬虫开发经验(Scrapy, Selenium 等),能处理常规的反爬机制。
· AI 技术应用:
o 熟悉 LLM 应用开发(如使用过 OpenAI API, LangChain等框架进行信息提取或 RAG 开发)。
o 对 AI Agent 的工作原理有基本认知,并有志于探索其在科学领域的落地。
· 优秀的逻辑思维,出色的跨部门沟通能力,能够快速理解科研业务逻辑,并将其转化为高效的数据方案。

工作地点

工作地点
浦东新区映恩生物科技(上海有限公司)1
位置图标
完善简历

入职公司信息

入职公司 某科技公司
公司地址 上海静安区
公司人数 1000-9999人

公司信息

英特利普(上海)信息技术有限公司

不需要融资 · 100-299人 · 人力资源、人力资源 已审核 已审核

14 个在招职位

公司介绍

英特利普集团创立于2009年,是一家总部位于美国硅谷的顶尖人才生态管理咨询及人力资源解决方案供应商。22年营收过亿美金,服务包括:高端招聘,高端海外校招,雇主品牌搭建,企业业务咨询,国际化咨询等服务。

工商信息

企业名称 英特利普(上海)信息技术有限公司
企业类型 有限责任公司(自然人投资或控股)
法人代表 詹昊鹏
经营状态 存续
成立时间 2020-10-22
注册资本 3000万元
查看全部信息

认证资质

营业执照信息 人力资源服务许可证

相似职位

查看更多

Python自动化测试

1-2万 软通动力信息技术(集团)股份有限公司
本科 3-5年 Linux Java C++ Python 半导体/芯片 计算机软件 通信/网络设备 五险一金 周末双休 定期体检 定期团建 项目奖金 节日福利 带薪年假

python后端开发工程师

1.2-2.4万 外企德科数字技术有限公司
本科 Java C++ C 云计算 软件/IT服务 计算机软件

python开发工程师

8000-12000元·13薪 软通动力信息技术(集团)股份有限公司
本科 1-3年 PYTHON开发

python开发工程师

1.5-3万·14薪 外企德科数字技术有限公司
本科 Python C++ JavaScript Spring Mybatis MySQL Redis 人工智能 产业互联网平台 计算机软件

AI 开发工程师

1.3-2万 天源迪科
本科 1-3年 人工智能 云计算 计算机软件

后端开发(python)

3-5.5万·15薪 四川挽星企业管理咨询有限公司
本科 10年以上 Python PyQt Flask MySQL PostgreSQL Oracle 云计算 人工智能 物联网

Python开发(国联民生)

1.4-1.9万 深圳华云信息系统科技股份有限公司
本科 3-5年 Java MySQL Oracle Sql Python 基金 证券/期货 投资与资产管理 五险一金

Python开发

1-1.5万 南京悦世耀科技有限公司
大专 1-3年 计算机软件

Intern-Lab Prototype SW Development原型开发

面议 ABB
硕士 Java 工业机器人 机器人
最新招聘
热门城市
热门职位
热门公司