职位描述
ScrapyrequestsSeleniumMILVUSFAISSQDRANT人工智能云计算/大数据互联网
岗位职责:
负责多源数据采集系统的设计与开发,应对各类反爬策略,保障数据获取的稳定性与时效性。
负责海量非结构化数据(PDF、Word、图像、网页等)的解析、清洗、结构化处理与质量评估。
参与RAG(检索增强生成)系统的核心模块开发,包括文档分块、嵌入向量化、索引构建与检索优化。
设计并实现高性能、高可用的数据服务API,支撑上层AI应用的数据调用需求。
持续优化数据处理Pipeline与检索链路,提升召回率、精确度及系统响应性能。 任职要求:
1. 编程基础与工程能力
精通Python编程,具备扎实的编码能力和良好的代码规范,熟练使用类型注解、异步编程(asyncio)及设计模式
熟练使用AI辅助编码工具(如Cursor、Copilot、Codeium等)提升开发效率,并具备代码审查与调试能力 熟悉Linux开发环境、Git工作流及Docker容器化部署,具备基本的CI/CD认知
2. 数据采集与反爬能力
熟悉分布式爬虫技术栈,具备1年以上实际项目经验
熟练掌握Scrapy、Requests、Selenium、Playwright等爬虫框架及工具
熟悉常见反爬策略的应对方案:IP代理池、User-Agent轮换、验证码识别、请求参数加密破解等
具备APP端数据采集经验者优先,了解逆向分析基础(如Frida、Xposed、抓包分析等)
3. 数据清洗与ETL能力
熟悉数据清洗、去重、质量校验技术栈,具备1年以上实际项目经验
熟练掌握Pandas / Polars进行数据清洗与转换,熟悉正则表达式、文本处理与规则引擎
熟悉多格式文档解析:PDF(pdfplumber / PyMuPDF)、Word(python-docx)、OCR(PaddleOCR / Tesseract)等 熟悉数据去重与实体对齐策略,具备大规模数据处理性能优化经验者优先
4. RAG与向量索引能力
熟悉数据ETL与索引构建流程,了解数据从原始态到检索态的完整链路
熟悉向量索引技术栈: 了解主流嵌入模型(Embedding Models)的原理与选型熟悉向量数据库(如Milvus、FAISS、Qdrant、Pinecone、OpenSearch等)的使用与调优
了解向量检索的性能优化策略(索引类型选择、分片策略、量化压缩等
了解RAG系统核心组件:文档分块策略(Chunking)、混合检索(Hybrid Search)、重排序(Reranking)等
熟悉LangChain、LlamaIndex或Dify等RAG开发框架者优先
5. 高性能数据服务能力
熟悉搭建高性能、高可用数据服务API 熟练使用FastAPI / Flask等Web框架,具备RESTful / gRPC接口开发经验
了解服务性能优化手段:缓存策略(Redis)、异步处理、连接池、数据库索引优化等
具备服务监控与日志排查能力(如Prometheus + Grafana、ELK等)
加分项
有大模型应用开发经验(如Prompt工程、Agent开发等)
有开源项目贡献或技术博客撰写习惯
工作地点
北京海淀区清华同方科技广场-B座1611

认证资质
营业执照信息

更新于 3月30日


