岗位职责:
1. 设计、开发和维护高性能、高可用的网络爬虫系统,用于大规模数据采集;
2. 分析目标网站结构,制定合理的抓取策略,处理反爬机制(如验证码、IP封禁、动态渲染等);
3. 对采集的数据进行清洗、去重、结构化处理,并确保数据质量与完整性;
4. 监控爬虫系统的运行状态,及时处理异常、优化性能与稳定性;
5. 负责京东/天猫/拼多多/抖音/快手等数据BI可视化工作,支持业务对数据的需求;
6. 与数据团队协作紧密协作,实现数据产品快速迭代。
岗位要求:
1. 熟练掌握 Python,熟悉常用爬虫框架(如 Scrapy、Requests、Selenium、Puppeteer、BeautifulSoup等);
2. 熟悉常见反爬机制及应对策略(如账号/IP封禁、验证码、js混淆加密、数据混淆等);
3. 熟悉 HTTP/HTTPS 协议、TCP/IP 网络基础,了解常见 Web 技术(HTML/CSS/JavaScript、AJAX、WebSocket 等);
4. 掌握数据库操作(MySQL、Doris 等),具备数据存储与处理能力;
5. 具有良好的学习能力、分析和解决问题的能力和强烈的进取心;
6. 具备良好的沟通能力和团队合作精神。