更新于 3月30日

APP

Python数据采集工程师

1.5-2.5万

北京海淀区
3-5年
本科
全职
招1人

ScrapyrequestsSeleniumMILVUSFAISSQDRANT人工智能云计算/大数据互联网

岗位职责：

负责多源数据采集系统的设计与开发，应对各类反爬策略，保障数据获取的稳定性与时效性。

负责海量非结构化数据（PDF、Word、图像、网页等）的解析、清洗、结构化处理与质量评估。

参与RAG（检索增强生成）系统的核心模块开发，包括文档分块、嵌入向量化、索引构建与检索优化。

设计并实现高性能、高可用的数据服务API，支撑上层AI应用的数据调用需求。

持续优化数据处理Pipeline与检索链路，提升召回率、精确度及系统响应性能。任职要求：

1. 编程基础与工程能力

精通Python编程，具备扎实的编码能力和良好的代码规范，熟练使用类型注解、异步编程（asyncio）及设计模式

熟练使用AI辅助编码工具（如Cursor、Copilot、Codeium等）提升开发效率，并具备代码审查与调试能力熟悉Linux开发环境、Git工作流及Docker容器化部署，具备基本的CI/CD认知

2. 数据采集与反爬能力

熟悉分布式爬虫技术栈，具备1年以上实际项目经验

熟练掌握Scrapy、Requests、Selenium、Playwright等爬虫框架及工具

熟悉常见反爬策略的应对方案：IP代理池、User-Agent轮换、验证码识别、请求参数加密破解等

具备APP端数据采集经验者优先，了解逆向分析基础（如Frida、Xposed、抓包分析等）

3. 数据清洗与ETL能力

熟悉数据清洗、去重、质量校验技术栈，具备1年以上实际项目经验

熟练掌握Pandas / Polars进行数据清洗与转换，熟悉正则表达式、文本处理与规则引擎

熟悉多格式文档解析：PDF（pdfplumber / PyMuPDF）、Word（python-docx）、OCR（PaddleOCR / Tesseract）等熟悉数据去重与实体对齐策略，具备大规模数据处理性能优化经验者优先

4. RAG与向量索引能力

熟悉数据ETL与索引构建流程，了解数据从原始态到检索态的完整链路

熟悉向量索引技术栈：了解主流嵌入模型（Embedding Models）的原理与选型熟悉向量数据库（如Milvus、FAISS、Qdrant、Pinecone、OpenSearch等）的使用与调优

了解向量检索的性能优化策略（索引类型选择、分片策略、量化压缩等

了解RAG系统核心组件：文档分块策略（Chunking）、混合检索（Hybrid Search）、重排序（Reranking）等

熟悉LangChain、LlamaIndex或Dify等RAG开发框架者优先

5. 高性能数据服务能力

熟悉搭建高性能、高可用数据服务API 熟练使用FastAPI / Flask等Web框架，具备RESTful / gRPC接口开发经验

了解服务性能优化手段：缓存策略（Redis）、异步处理、连接池、数据库索引优化等

具备服务监控与日志排查能力（如Prometheus + Grafana、ELK等）

加分项

有大模型应用开发经验（如Prompt工程、Agent开发等）

有开源项目贡献或技术博客撰写习惯

北京海淀区清华同方科技广场-B座1611

工商信息

企业名称嗖马软件开发（北京）有限公司

企业类型有限责任公司（自然人投资或控股的法人独资）

法人代表李霞

经营状态存续

成立时间 2025-05-20

注册资本 500万元

查看全部信息

营业执照信息

北京知形科技有限公司

1-3年本科 ROS系统 Python NumPy Scipy NUMBA 机器人

中软国际

1-3年本科 Shell 计算机软件

软通动力信息技术(集团)股份有限公司

5-10年本科 Python Django Flask PyQt PostgreSQL 前端 HTML JavaScript 云计算/大数据互联网计算机软件

北京前景无忧电子科技股份有限公司

本科 MySQL PostgreSQL Flask requests Python 电力/水利/热力/燃气

北京阿提拉科技有限公司

3-5年本科 Python 智能体架构设计 AI智能体大模型 Redis MySQL LANGCHAIN LLAMAINDEX

同方鼎欣科技股份有限公司

3-5年大专 Shell MySQL Python 人工智能云计算/大数据

京北方

本科人工智能

北京佰能盈天科技股份有限公司

1-3年本科 Python

大连斯锐信息技术有限公司

3-5年本科包吃 Python 计算机软件

博彦科技承德有限公司

1-3年本科 C++ C pytorch TensorFlow 语音、音频、NLP、CV任一经验分布式训练模型部署优化人工智能互联网

卓望信息技术(北京)有限公司

1-3年本科 C++ PHP

广东羚鹿云计算有限公司大兴分公司

3-5年本科 Java MySQL GO Python 计算机软件

航天新气象科技有限公司

5-10年硕士年终奖六险一金带薪假期体检福利有餐补 MongoDB Redis MySQL PYTHON并发框架 PYSPARK PYTHON可视化库后端开发计算机软件

安诺优达基因科技(北京)股份有限公司

1-3年本科 VUE3/REACT

安徽锐光新测科技有限公司

3-5年大专 Python C++ Java Flask PyQt MySQL PYTHON 基础 MYSQL 或 SQLITE 掌握 HTTP、TCP/UDP 人工智能计算机软件计算机硬件

航天新气象科技有限公司

3-5年本科计算机软件

北京清创智科科技有限公司

3-5年本科 NLP Python pytorch TensorFlow 深度学习框架人工智能

3-5年大专人工智能

3-5年本科 IT服务计算机软件

3-5年本科 Flask

3-5年本科 Python Pandas 投资/融资

北京国网互联电气技术有限公司

本科股票期权 Java Sql JavaScript Django PyQt Scrapy MySQL PostgreSQL MongoDB 电力/水利/热力/燃气 IT服务人工智能

北京草木年华科技有限公司

3-5年本科 Sql MySQL PostgreSQL Redis 云计算/大数据计算机软件

保准牛

3-5年本科 Java C++ JavaScript MySQL PostgreSQL MongoDB 微服务架构保险计算机软件人工智能

中科软科技股份有限公司

3-5年本科 Java MySQL Oracle 自动化技术 DEVOPS 计算机软件

中国科学院工程热物理研究所

硕士 C++ 计算机软件学术/科研

北京迈迪培尔信息技术有限公司

本科五险一金周末双休全勤奖交通补助有餐补免费班车体检福利节日慰问 Python

软通动力信息技术(集团)股份有限公司

3-5年大专大模型评测人工智能云计算/大数据计算机软件

中科软科技股份有限公司

5-10年本科 Java Django Flask 微服务架构 MySQL Redis 自动化运维 DEVOPS 计算机软件

安世亚太科技股份有限公司

3-5年硕士 Python 人工智能

北京艾唯博瑞科技有限公司

3-5年本科 Python PYTHON WEB SQLServer Redis MySQL IDE git 计算机软件

感知天下(北京)信息科技有限公司

5-10年本科 Java Django MySQL MongoDB Redis Docker 摄影测量与遥感计算机软件

同方鼎欣科技股份有限公司

5-10年本科 Python Django MySQL 人工智能计算机软件

北京德信德胜科技股份有限公司

3-5年大专 Sql Flask MySQL 计算机软件

京北方

3-5年本科 Java Django MySQL Python 银行

北京创新在线网络技术有限公司

1-3年本科 Sql JavaScript MySQL Flask Scrapy SQLServer

资质专员招聘常州河北金融科技招聘网官网河北环保局最新招聘信息网官网广州市政务中心面试重庆中国人寿面试茂名人才在线招聘网高邮人才招聘市场信息网官网最新专业化工安装公司招聘高端日料店招聘服务员德宏人才市场招聘网南宁市凤妃堂美容美体生活馆库车美味果品农民专业合作社云南四时好物科技有限公司运城经济开发区香满缘面包加工厂甘井子区浴水湾温泉酒店中山市华颂投资咨询有限公司交投（河南漯河）港务有限公司宁夏强热科技有限公司锦江区雅芙迎商贸部四川糖小七商贸有限公司

关于我们: 公司介绍; 联系我们; 诚聘英才

产品与服务: 人才招聘; 企业招聘

使用与帮助: 账号注销; 意见反馈; 发票制度; 防骗指南; 法律协议; 资质公示

智联招聘更懂你的价值

智联app小程序官方微信企业版APP

京ICP备12025925号京ICP证010207号

京公网安备 11010502059392号人力资源许可证:1101051996081号

网上有害信息举报专区违法不良信息举报电话:400-885-9898 关爱未成年举报热线:400-885-9898-3

朝阳区人力资源与社会保障局监督电话

网络110报警服务电子营业执照

Python数据采集工程师

职位描述

工作地点

公司信息

工商信息

认证资质

相似职位

ROS开发工程师

python

python高级后端开发工程师

Python开发工程师

python（AI智能体）开发工程师

python开发工程师

大模型平台python开发

python软件工程师

自动化评测（python）--外派大厂包三餐

后端开发工程师（Python/C/C++）

资深开发工程师（python） (MJ000686)

后端开发工程师（外包高德）

python高级开发工程师(13薪）

AI开发工程师

助理软件工程师

Python研发岗（无锡）

AI Python开发工程师

Python后端中级工程师（大模型评测工程师）

Python开发工程师

Python后端开发工程师

python开发

AI2软件开发实习生

python后端开发工程师

Ai后端开发工程师

开发工程师

软件开发工程师

python工程师

Python

开发工程师

Python 开发工程师

程序员

python后端开发工程师

后端工程师

python后端开发工程师

python全栈工程师

Python初级大数据开发工程师