数据采集工程师

1-2万

上海静安区
3-5年
本科
全职
招1人

职位描述

数据爬虫反爬虫PythonSQLScrapyrequestsHadoopSparkKafkaFlask云计算/大数据

职位描述：
我们正在寻找一位知识丰富、技术过硬的数据采集工程师。您将负责构建和维护高效、
合规的数据采集系统，从各大短视频社交平台（如抖音、小红书、快手、哔哩哔哩等）获取
爆款内容数据，并实时监控网络热点趋势。
主要职责：
1. 爆款数据采集
⚫ 设计、开发和维护高效、稳定的网络爬虫程序，从目标短视频社交平台（抖音、小
红书、快手、哔哩哔哩等）合规的抓取爆款短视频的公开数据。
⚫ 采集数据类型包括但不限于：视频元数据（标题、描述、标签）、视频链接、图片
/封面、评论数据、点赞/分享/收藏量、播放量、BGM 信息，相关话题，创作者信
息，用户互动数据等。
2. 热点趋势监控：
⚫ 开发和部署自动化监控系统、实时跟踪和分析社交平台的热榜、热门 BGM、飙升
的话题、关键词趋势等，及时发现和预警新的流行趋势。
⚫ 构建和维护热点趋势数据库，为全网爆款趋势雷达模块提供数据支持。
3. 数据清洗与预处理：
⚫ 对采集到的原始数据进行清洗、去重、结构化处理和格式转换，确保数据质量和可
用性，满足 AI 模型训练的需求。
⚫ 处理数据中的噪音、缺失值以及异常数据，提升数据的纯净度。
4. 数据存储与管理：
⚫ 与后端工程师协作，设计并实现数据存储方案，将采集和处理后的数据高效的存储
在 SQL 数据库、NoSQL 或者向量数据库中。
⚫ 负责数据版本的管理和维护，确保数据的可追溯性和一致性。
5. 合规和风险管理：
⚫ 深入理解并且遵守各社交平台的用户协议、API 政策和国家相关法规，确保所有数
据采集的活动合法合规。
⚫ 持续关注各个平台的反爬策略和政策变化，及时调整采集方案，降低法律和技术风
险。
⚫ 实施数据脱敏、匿名化措施，保护用户的隐私。
6. 性能优化和维护：
⚫ 优化爬虫系统的性能和效率，提高数据采集速度和并发能力。
⚫ 监控采集系统的运行状态，及时排查解决数据采集过程中的技术问题。
7. 协作与沟通：
⚫ 与 AI 模型训练工程师和后端工程师协作，理解模型需求，提供定制化的数据解决
方案
⚫ 参与项目需求分析和技术方案讨论，为项目决策提供专业意见。
任职要求：
1. 教育背景：大学计算机科学、软件工程、数据科学或者统计学相关专业本科以上
学历。 2. 编程技能：熟练掌握 Python（必备）或者 Golang，具备扎实的编程基础和良好的代码规
范
3. 爬虫经验：3 年以上网络爬虫开发经验，精通常用的爬虫框架和库（如 Scrapy、Requests、
Beautiful Soup 等）
4. 反抗对爬：具备丰富的反爬虫策略对应经验（如代理 IP 池，User-Agent 管理、验证码识
别，模拟登录，分布式爬虫等）
5. 数据处理：熟悉数据清洗流程，熟悉常用的数据处理工具和库（如 Pandas，Numpy 等）
6. 数据库：熟悉 SQL 的操作和优化，了解 NoSQL 数据库或者向量数据库的基本概念。
7. 云平台经验：有在云平台（阿里云、腾讯云等）部署和运行爬虫程序的经验。
8. 合规意识：具备极强的数据安全、隐私保护和法律合规意识，理解互联网数据采集的风
险和挑战
9. 学习能力：对新技术充满热情，具备快速学习和适应新工具，新平台的能力