更新于 3月30日

Python数据采集工程师

1.5-2.5万
  • 北京 海淀区
  • 3-5年
  • 本科
  • 全职
  • 招1人

职位描述

ScrapyrequestsSeleniumMILVUSFAISSQDRANT人工智能云计算/大数据互联网
岗位职责:
负责多源数据采集系统的设计与开发,应对各类反爬策略,保障数据获取的稳定性与时效性。
负责海量非结构化数据(PDF、Word、图像、网页等)的解析、清洗、结构化处理与质量评估。
参与RAG(检索增强生成)系统的核心模块开发,包括文档分块、嵌入向量化、索引构建与检索优化。
设计并实现高性能、高可用的数据服务API,支撑上层AI应用的数据调用需求。
持续优化数据处理Pipeline与检索链路,提升召回率、精确度及系统响应性能。 任职要求:
1. 编程基础与工程能力
精通Python编程,具备扎实的编码能力和良好的代码规范,熟练使用类型注解、异步编程(asyncio)及设计模式
熟练使用AI辅助编码工具(如Cursor、Copilot、Codeium等)提升开发效率,并具备代码审查与调试能力 熟悉Linux开发环境、Git工作流及Docker容器化部署,具备基本的CI/CD认知
2. 数据采集与反爬能力
熟悉分布式爬虫技术栈,具备1年以上实际项目经验
熟练掌握Scrapy、Requests、Selenium、Playwright等爬虫框架及工具
熟悉常见反爬策略的应对方案:IP代理池、User-Agent轮换、验证码识别、请求参数加密破解等
具备APP端数据采集经验者优先,了解逆向分析基础(如Frida、Xposed、抓包分析等)
3. 数据清洗与ETL能力
熟悉数据清洗、去重、质量校验技术栈,具备1年以上实际项目经验
熟练掌握Pandas / Polars进行数据清洗与转换,熟悉正则表达式、文本处理与规则引擎
熟悉多格式文档解析:PDF(pdfplumber / PyMuPDF)、Word(python-docx)、OCR(PaddleOCR / Tesseract)等 熟悉数据去重与实体对齐策略,具备大规模数据处理性能优化经验者优先
4. RAG与向量索引能力
熟悉数据ETL与索引构建流程,了解数据从原始态到检索态的完整链路
熟悉向量索引技术栈: 了解主流嵌入模型(Embedding Models)的原理与选型熟悉向量数据库(如Milvus、FAISS、Qdrant、Pinecone、OpenSearch等)的使用与调优
了解向量检索的性能优化策略(索引类型选择、分片策略、量化压缩等
了解RAG系统核心组件:文档分块策略(Chunking)、混合检索(Hybrid Search)、重排序(Reranking)等
熟悉LangChain、LlamaIndex或Dify等RAG开发框架者优先
5. 高性能数据服务能力
熟悉搭建高性能、高可用数据服务API 熟练使用FastAPI / Flask等Web框架,具备RESTful / gRPC接口开发经验
了解服务性能优化手段:缓存策略(Redis)、异步处理、连接池、数据库索引优化等
具备服务监控与日志排查能力(如Prometheus + Grafana、ELK等)
加分项
有大模型应用开发经验(如Prompt工程、Agent开发等)
有开源项目贡献或技术博客撰写习惯

工作地点

工作地点
北京海淀区清华同方科技广场-B座1611
位置图标
完善简历

公司信息

嗖马软件开发(北京)有限公司

不需要融资 · 20-99人 · 人工智能 已审核 已审核

1 个在招职位

工商信息

企业名称 嗖马软件开发(北京)有限公司
企业类型 有限责任公司(自然人投资或控股的法人独资)
法人代表 李霞
经营状态 存续
成立时间 2025-05-20
注册资本 500万元
查看全部信息

认证资质

营业执照信息

相似职位

查看更多

ROS开发工程师

1.2-2万·13薪
北京知形科技有限公司
1-3年 本科 ROS系统 Python NumPy Scipy NUMBA 机器人

python

面议
中软国际
1-3年 本科 Shell 计算机软件

python高级后端开发工程师

1.1-1.3万
软通动力信息技术(集团)股份有限公司
5-10年 本科 Python Django Flask PyQt PostgreSQL 前端 HTML JavaScript 云计算/大数据 互联网 计算机软件

Python开发工程师

8000-16000元
北京前景无忧电子科技股份有限公司
本科 MySQL PostgreSQL Flask requests Python 电力/水利/热力/燃气

python(AI智能体)开发工程师

1.5-2万
北京阿提拉科技有限公司
3-5年 本科 Python 智能体架构设计 AI智能体 大模型 Redis MySQL LANGCHAIN LLAMAINDEX

python开发工程师

1.5-2万
同方鼎欣科技股份有限公司
3-5年 大专 Shell MySQL Python 人工智能 云计算/大数据
最新招聘
热门城市
热门职位
热门公司