雇员点评标签
职位描述
PythonJava数据采集数据清洗爬虫开发
职责
· 高并发抓取架构: 负责跨平台社交媒体(TikTok, Instagram, YouTube 等)的高并发数据抓取架构设计与开发,具备千万级以上平台并发抓取经验。
· 反爬策略攻坚: 攻克各大平台的反爬策略(代理池调度、逆向分析、验证码及加密参数破解),确保采集通道的高可用与稳定性。
· 数据清洗与标准化: 负责底层抓取数据的精准清洗与标准化。例如:准确提取地域 Country Code 并严格执行自动剔除冗余洲际标签的逻辑,从源头确保数据的高质量与纯净度。
· AI 辅助逆向分析: 深度应用 AI 编程工具,加速复杂网页结构解析、正则表达式生成及逆向分析脚本的编写。
■ 任职要求
· 专业技能: 精通 Python 或 Java,熟练使用主流爬虫框架及自动化工具,精通网络抓包与逆向工程。
· 数据业务嗅觉: 不仅仅负责“抓”,还要理解“抓什么有价值”。能快速理解数据清洗标准对下游分析业务的直接影响,确保采集策略与业务目标高度一致。
· AI 协同开发: 熟练使用 AI 辅助开发工具应对海量、多变的 解析工作,大幅缩短脚本开发周期。
· 高并发抓取架构: 负责跨平台社交媒体(TikTok, Instagram, YouTube 等)的高并发数据抓取架构设计与开发,具备千万级以上平台并发抓取经验。
· 反爬策略攻坚: 攻克各大平台的反爬策略(代理池调度、逆向分析、验证码及加密参数破解),确保采集通道的高可用与稳定性。
· 数据清洗与标准化: 负责底层抓取数据的精准清洗与标准化。例如:准确提取地域 Country Code 并严格执行自动剔除冗余洲际标签的逻辑,从源头确保数据的高质量与纯净度。
· AI 辅助逆向分析: 深度应用 AI 编程工具,加速复杂网页结构解析、正则表达式生成及逆向分析脚本的编写。
■ 任职要求
· 专业技能: 精通 Python 或 Java,熟练使用主流爬虫框架及自动化工具,精通网络抓包与逆向工程。
· 数据业务嗅觉: 不仅仅负责“抓”,还要理解“抓什么有价值”。能快速理解数据清洗标准对下游分析业务的直接影响,确保采集策略与业务目标高度一致。
· AI 协同开发: 熟练使用 AI 辅助开发工具应对海量、多变的 解析工作,大幅缩短脚本开发周期。





