职位描述
PythonDjangoFlaskMySQL爬虫LLMETL生物/制药
职位概述:
作为DS&AI团队的数据基石,你将负责构建一套能够支撑前沿AI模型与AI Agent运行的数据生态。你的核心任务是整合全球专业生物医药数据库,并利用大语言模型(LLM)从内外部海量文档中自动化提取关键科学信息,最终打造一个结构化、高性能、可被AI Agent高效调用以及训练AI模型的科学数据底座。
核心职责:
1. 科学数据整合与流水线建设:
· 专业库对接: 负责从 ChEMBL, PubChem, UniProt等主流生物医药数据库中提取、解析并集成数据。
· ETL流程维护: 设计并维护自动化的数据清洗、标准化流水线,处理实验数据(Assay Data)中的冗余与缺失,确保数据对AI模型的一致性。
· 数据质量监控: 建立严谨的数据校验规则,确保整合后的科学数据在结构化程度和准确性上达到模型训练标准。
2. 多源数据采集与智能信息提取:
· 多维数据抓取: 针对外部文献(PubMed, arXiv)、专利网站及行业动态,开发高效的自动化爬虫系统,作为标准库的数据补充。
· 内外部文档智能解析: 利用 LLM和OCR技术,深度解析外部专利/论文及内部科研报告/实验记录等非结构化文档。
· 知识自动化: 负责将提取出的零散信息转化为结构化数据,持续丰富企业内部的科学知识库。
3. AI Agent 数据底座建设:
· Agent 数据支撑: 负责打造服务于 AI Agent 的数据基础设施,包括但不限于构建和维护结构化数据库,向量数据库 (Vector DB) 和图数据库 (Graph DB)。
· 工具接口开发: 为 AI Agent 规划并开发标准化的一套数据查询工具,使其能够自主、精准地检索并调用底层科学数据。
任职要求:
· 教育背景: 计算机、生物信息学、化学信息学、计算生物学或相关专业背景。
· 行业背景:
o 熟悉常用的生物医药数据库(如 ChEMBL, UniProt, PubChem 等)的数据组织逻辑。
o 对小分子结构、蛋白质序列等科学数据格式有基础了解。
· 编程与数据能力:
o 精通 Python,具备扎实的数据清洗(Pandas, NumPy)和 SQL 数据库操作能力。
o 具备网络爬虫开发经验(Scrapy, Selenium 等),能处理常规的反爬机制。
· AI 技术应用:
o 熟悉 LLM 应用开发(如使用过 OpenAI API, LangChain等框架进行信息提取或 RAG 开发)。
o 对 AI Agent 的工作原理有基本认知,并有志于探索其在科学领域的落地。
· 优秀的逻辑思维,出色的跨部门沟通能力,能够快速理解科研业务逻辑,并将其转化为高效的数据方案。
作为DS&AI团队的数据基石,你将负责构建一套能够支撑前沿AI模型与AI Agent运行的数据生态。你的核心任务是整合全球专业生物医药数据库,并利用大语言模型(LLM)从内外部海量文档中自动化提取关键科学信息,最终打造一个结构化、高性能、可被AI Agent高效调用以及训练AI模型的科学数据底座。
核心职责:
1. 科学数据整合与流水线建设:
· 专业库对接: 负责从 ChEMBL, PubChem, UniProt等主流生物医药数据库中提取、解析并集成数据。
· ETL流程维护: 设计并维护自动化的数据清洗、标准化流水线,处理实验数据(Assay Data)中的冗余与缺失,确保数据对AI模型的一致性。
· 数据质量监控: 建立严谨的数据校验规则,确保整合后的科学数据在结构化程度和准确性上达到模型训练标准。
2. 多源数据采集与智能信息提取:
· 多维数据抓取: 针对外部文献(PubMed, arXiv)、专利网站及行业动态,开发高效的自动化爬虫系统,作为标准库的数据补充。
· 内外部文档智能解析: 利用 LLM和OCR技术,深度解析外部专利/论文及内部科研报告/实验记录等非结构化文档。
· 知识自动化: 负责将提取出的零散信息转化为结构化数据,持续丰富企业内部的科学知识库。
3. AI Agent 数据底座建设:
· Agent 数据支撑: 负责打造服务于 AI Agent 的数据基础设施,包括但不限于构建和维护结构化数据库,向量数据库 (Vector DB) 和图数据库 (Graph DB)。
· 工具接口开发: 为 AI Agent 规划并开发标准化的一套数据查询工具,使其能够自主、精准地检索并调用底层科学数据。
任职要求:
· 教育背景: 计算机、生物信息学、化学信息学、计算生物学或相关专业背景。
· 行业背景:
o 熟悉常用的生物医药数据库(如 ChEMBL, UniProt, PubChem 等)的数据组织逻辑。
o 对小分子结构、蛋白质序列等科学数据格式有基础了解。
· 编程与数据能力:
o 精通 Python,具备扎实的数据清洗(Pandas, NumPy)和 SQL 数据库操作能力。
o 具备网络爬虫开发经验(Scrapy, Selenium 等),能处理常规的反爬机制。
· AI 技术应用:
o 熟悉 LLM 应用开发(如使用过 OpenAI API, LangChain等框架进行信息提取或 RAG 开发)。
o 对 AI Agent 的工作原理有基本认知,并有志于探索其在科学领域的落地。
· 优秀的逻辑思维,出色的跨部门沟通能力,能够快速理解科研业务逻辑,并将其转化为高效的数据方案。
工作地点
浦东新区映恩生物科技(上海有限公司)1

入职公司信息
入职公司 某科技公司
公司地址 上海静安区
公司人数 1000-9999人
认证资质
营业执照信息 人力资源服务许可证

更新于 今天






