更新于 1月15日

数据采集工程师

1-2万
  • 上海静安区
  • 3-5年
  • 本科
  • 全职
  • 招1人

职位描述

数据爬虫反爬虫PythonSQLScrapyrequestsHadoopSparkKafkaFlask云计算/大数据
职位描述:
我们正在寻找一位知识丰富、技术过硬的数据采集工程师。您将负责构建和维护高效、
合规的数据采集系统,从各大短视频社交平台(如抖音、小红书、快手、哔哩哔哩等)获取
爆款内容数据,并实时监控网络热点趋势。
主要职责:
1. 爆款数据采集
⚫ 设计、开发和维护高效、稳定的网络爬虫程序,从目标短视频社交平台(抖音、小
红书、快手、哔哩哔哩等)合规的抓取爆款短视频的公开数据。
⚫ 采集数据类型包括但不限于:视频元数据(标题、描述、标签)、视频链接、图片
/封面、评论数据、点赞/分享/收藏量、播放量、BGM 信息,相关话题,创作者信
息,用户互动数据等。
2. 热点趋势监控:
⚫ 开发和部署自动化监控系统、实时跟踪和分析社交平台的热榜、热门 BGM、飙升
的话题、关键词趋势等,及时发现和预警新的流行趋势。
⚫ 构建和维护热点趋势数据库,为 全网爆款趋势雷达 模块提供数据支持。
3. 数据清洗与预处理:
⚫ 对采集到的原始数据进行清洗、去重、结构化处理和格式转换,确保数据质量和可
用性,满足 AI 模型训练的需求。
⚫ 处理数据中的噪音、缺失值以及异常数据,提升数据的纯净度。
4. 数据存储与管理:
⚫ 与后端工程师协作,设计并实现数据存储方案,将采集和处理后的数据高效的存储
在 SQL 数据库、NoSQL 或者向量数据库中。
⚫ 负责数据版本的管理和维护,确保数据的可追溯性和一致性。
5. 合规和风险管理:
⚫ 深入理解并且遵守各社交平台的用户协议、API 政策和国家相关法规,确保所有数
据采集的活动合法合规。
⚫ 持续关注各个平台的反爬策略和政策变化,及时调整采集方案,降低法律和技术风
险。
⚫ 实施数据脱敏、匿名化措施,保护用户的隐私。
6. 性能优化和维护:
⚫ 优化爬虫系统的性能和效率,提高数据采集速度和并发能力。
⚫ 监控采集系统的运行状态,及时排查解决数据采集过程中的技术问题。
7. 协作与沟通:
⚫ 与 AI 模型训练工程师和后端工程师协作,理解模型需求,提供定制化的数据解决
方案
⚫ 参与项目需求分析和技术方案讨论,为项目决策提供专业意见。
任职要求:
1. 教育背景:大学计算机科学、软件工程、数据科学或者统计学相关专业本科以上
学历。 2. 编程技能:熟练掌握 Python(必备)或者 Golang,具备扎实的编程基础和良好的代码规

3. 爬虫经验:3 年以上网络爬虫开发经验,精通常用的爬虫框架和库(如 Scrapy、Requests、
Beautiful Soup 等)
4. 反抗对爬:具备丰富的反爬虫策略对应经验(如代理 IP 池,User-Agent 管理、验证码识
别,模拟登录,分布式爬虫等)
5. 数据处理:熟悉数据清洗流程,熟悉常用的数据处理工具和库(如 Pandas,Numpy 等)
6. 数据库:熟悉 SQL 的操作和优化,了解 NoSQL 数据库或者向量数据库的基本概念。
7. 云平台经验:有在云平台(阿里云、腾讯云等)部署和运行爬虫程序的经验。
8. 合规意识:具备极强的数据安全、隐私保护和法律合规意识,理解互联网数据采集的风
险和挑战
9. 学习能力:对新技术充满热情,具备快速学习和适应新工具,新平台的能力

工作地点

上海静安区奥力孚利华大厦

职位发布者

恽泳溶/HR

立即沟通
公司Logo上海影视传媒股份有限公司
公司主页