岗位职责:
1. 负责 Web 端数据全流程采集(爬取、清洗、入库),可独立设计多源数据采集方案;
2. 熟练掌握 Python,能使用 FastAPI 构建后端接口并进行联调;
3. 熟悉数据库(Redis、PostgreSQL、MySQL),能进行结构设计与性能优化;
4. 熟练使用 Docker 进行服务容器化与多服务编排(Compose),了解 K8s 优先;
5. 掌握多种抓取技术(网页爬取、动态渲染、API 调用),能处理代理池、验证码识别等场景;
6. 熟练使用 XPath、BeautifulSoup、pandas 等解析工具提取结构化与非结构化数据;
7. 精通反爬破解技术(JS Hook、AST 分析、混淆还原等);
8. 参与分布式爬虫系统设计与优化,搭建采集调度与监控体系;
9. 熟练使用 Scrapy、PySpider 框架,具备二次开发与中间件扩展能力;
10. 具备良好的沟通能力,可与产品、数据、后端团队协同开发;
11. 有 APP 逆向与协议分析经验者优先。