职位描述
数据爬虫Python产业互联网平台
岗位职责
1. 负责互联网公开数据的采集、清洗、结构化与入库,支撑 AI 应用、模型训练、知识库和数据分析业务。设计并开发高稳定性的爬虫系统,包括网页解析、动态页面采集、反爬策略应对、任务调度、代理管理和异常监控。
2. 针对不同网站结构,构建可复用的数据抽取规则和自动化解析流程,提升采集效率和数据质量。
3. 参与数据治理工作,包括去重、字段标准化、质量校验、数据溯源和更新机制设计。
4. 与算法、产品和业务团队协作,理解 AI 场景下的数据需求,输出可用于 RAG、训练、评测或业务分析的数据集。
5. 跟踪大模型、Agent、智能解析、网页理解等技术,探索 AI 辅助爬虫和自动化数据采集方案。
6. 遵守数据合规要求,确保采集范围、使用方式和存储流程符合相关法律法规及网站规则。
任职要求
1. 本科及以上学历,计算机、软件工程、数据科学等相关专业优先。
2. 熟练掌握 Python,熟悉 Scrapy、Requests、BeautifulSoup、Playwright、Selenium 等爬虫和浏览器自动化工具。
3. 熟悉 HTML、CSS、JavaScript、网络协议、浏览器渲染机制,能独立分析网页结构和接口请求。
4. 熟悉常见反爬机制及应对思路,如验证码、动态渲染、签名参数、频控、IP 限制、登录态管理等。
5. 熟悉 MySQL、PostgreSQL、MongoDB、Elasticsearch、Redis 中至少一种数据存储或检索系统。
6. 具备良好的数据清洗、文本处理和结构化能力,能处理多源异构数据。
7. 了解大模型、RAG、向量数据库、Embedding 或 AI 数据工程相关概念者优先。
8. 具备较强的问题排查能力、工程稳定性意识和合规意识。
1. 负责互联网公开数据的采集、清洗、结构化与入库,支撑 AI 应用、模型训练、知识库和数据分析业务。设计并开发高稳定性的爬虫系统,包括网页解析、动态页面采集、反爬策略应对、任务调度、代理管理和异常监控。
2. 针对不同网站结构,构建可复用的数据抽取规则和自动化解析流程,提升采集效率和数据质量。
3. 参与数据治理工作,包括去重、字段标准化、质量校验、数据溯源和更新机制设计。
4. 与算法、产品和业务团队协作,理解 AI 场景下的数据需求,输出可用于 RAG、训练、评测或业务分析的数据集。
5. 跟踪大模型、Agent、智能解析、网页理解等技术,探索 AI 辅助爬虫和自动化数据采集方案。
6. 遵守数据合规要求,确保采集范围、使用方式和存储流程符合相关法律法规及网站规则。
任职要求
1. 本科及以上学历,计算机、软件工程、数据科学等相关专业优先。
2. 熟练掌握 Python,熟悉 Scrapy、Requests、BeautifulSoup、Playwright、Selenium 等爬虫和浏览器自动化工具。
3. 熟悉 HTML、CSS、JavaScript、网络协议、浏览器渲染机制,能独立分析网页结构和接口请求。
4. 熟悉常见反爬机制及应对思路,如验证码、动态渲染、签名参数、频控、IP 限制、登录态管理等。
5. 熟悉 MySQL、PostgreSQL、MongoDB、Elasticsearch、Redis 中至少一种数据存储或检索系统。
6. 具备良好的数据清洗、文本处理和结构化能力,能处理多源异构数据。
7. 了解大模型、RAG、向量数据库、Embedding 或 AI 数据工程相关概念者优先。
8. 具备较强的问题排查能力、工程稳定性意识和合规意识。
工作地点
杭州余杭区阿里巴巴西溪C区

认证资质
营业执照信息

更新于 今天





