【工作职责】
1、负责设计和开发高效稳定的网络爬虫系统,进行多平台、多类型数据抓取与处理。
2、研究和应对各类反爬机制,包括但不限于验证码识别、IP封锁、行为检测等,保障数据获取的持续性与稳定性。
3、参与数据清洗、去重、存储及初步分析流程的设计与实现。
4、配合前后端开发,辅助实现数据可视化、数据管理平台及相关内部工具的开发与维护。
5、参与系统架构设计,优化爬虫调度策略与数据存储方案,提升系统性能与可扩展性。
6、跟踪爬虫与反爬技术动态,持续优化数据采集策略与工具链。
7、协助团队完成日常技术问题排查与系统运维支持。
【任职要求】
1、本科及以上学历,计算机、软件工程或相关专业。
2、具备3年以上爬虫开发经验,熟悉常见反爬机制及应对方案。
3、具备全栈开发能力,熟悉前后端开发技术:
前端:掌握HTML/CSS/JavaScript,至少了解Vue.js或React之一;
后端:熟悉Java及Spring Boot/Spring Cloud框架,或具备Node.js。
4、熟悉数据提取与清洗技术(如XPath、正则表达式、解析库等),具备结构化与非结构化数据处理经验。
5、熟悉常见数据存储方案,包括关系型数据库(MySQL、PostgreSQL等)和NoSQL数据库(MongoDB、Redis等)。
6、了解网络协议、HTTP/HTTPS通信机制,能分析网络请求与响应,使用抓包工具(如Charles、Fiddler等)。
【优先/加分条件】
1、熟练掌握Python及相关爬虫框架(如Scrapy、Selenium、Playwright等),了解分布式爬虫原理。
2、有分布式爬虫架构设计经验,熟悉消息队列(Kafka、RabbitMQ等)、任务调度系统。