更新于 2026-03-05 00:30:11

爬虫工程师

2-3万·15薪
  • 北京海淀区
  • 1-3年
  • 本科
  • 全职
  • 招1人

雇员点评标签

  • 工作环境好
  • 同事很nice
  • 人际关系好
  • 氛围活跃
  • 团队执行强
  • 交通便利

职位描述

爬虫开发ScrapyPySpiderrequests音视频播数据采集
工作职责:
1. 负责互联网音频、视频平台的数据采集,包括节目/专辑/视频元数据、评论、播放数据等信息的抓取与结构化整理。
2. 设计并实现稳定高效的音视频爬虫系统,支持大规模、多站点的持续采集与更新。
3. 针对主流音视频平台的反爬机制(登录态校验、频控、滑块验证码、JS 加密、动态接口、加密链接等)进行分析与对抗,持续提升成功率与稳定性。
4. 参与音视频资源解析相关工作,如播放地址/m3u8/DASH 等协议分析、加密参数解析、接口抓包与协议还原(仅用于合法合规场景)。
5. 搭建数据采集监控体系,包含任务调度、失败重试、数据质量监控、告警与日志分析。
6. 持续优化爬虫框架与采集策略,提升抓取效率、降低带宽与存储开销。
7. 与产品、算法、数据、内容运营等团队配合,根据业务需求设计数据采集方案,为推荐、内容分析、风控等场景提供数据支持。
8. 编写和维护相关技术文档、开发规范,参与爬虫平台的架构演进。
任职要求:
1. 本科及以上学历,计算机相关专业优先,具备 1 年及以上互联网爬虫或数据采集相关经验(优秀者可适当放宽)。
2. 精通 Python,熟悉 Scrapy、Requests、Playwright、Selenium 等至少一种爬虫/自动化框架,有实际项目经验。
3. 深刻理解 HTTP/HTTPS 协议和浏览器工作机制,熟练使用抓包工具(如 Charles、Fiddler、Wireshark、Chrome DevTools 等)进行接口分析与问题排查。
4. 有针对主流网站或 APP 的反爬对抗经验,熟悉登录维持、Cookie/Token 管理、代理池、UA 伪装、JS 逆向、加密参数还原等技术手段。
5. 对音视频播放相关协议和格式有一定了解,例如:
* 常见音视频封装格式与编码(MP4、FLV、HLS/m3u8、DASH 等);
* 简单理解 CDN、分片下载、防盗链等机制者优先。
6. 熟悉常见存储与缓存,如
MySQL、Redis、MongoDB、Elasticsearch 等,了解基本的数据清洗、去重和索引优化。
加分项:
* 有自研或主导搭建过大规模分布式爬虫/采集平台的经验;
* 有面向音视频内容的搜索、推荐、内容理解、版权分析等相关项目经验;
* 熟悉 Linux 环境,能够进行基础运维与部署,有 Docker/Kubernetes 经验者优先;
* 在 GitHub、技术博客、社区有技术输出或开源项目经历。

工作地点

北京海淀区理想大厦1楼

入职公司信息

  • 入职公司: 北京市商汤科技开发有限公司
  • 公司地址: 北京海淀区北京市海淀区北四环西路58号理想国际大厦1101-1107
  • 公司人数: 20-99人

认证资质

  • 劳务派遣经营许可认证

    劳务派遣经营许可证是由国家人力资源与社会保障相关部门颁发,代表人才经纪人所在企业可以合法开展劳务派遣相关业务的资质证件。展示该标签代表该企业发布此职位时已上传《劳务派遣许可证》并经由平台审验通过。

职位发布者

王女士/招聘专员

昨日活跃
立即沟通
公司Logo外企德科
北京外企德科人力资源服务上海有限公司(FESCO Adecco):官方网站:http://www.fescoadecco.com/北京外企德科人力资源服务上海有限公司(外企德科 FESCO Adecco)是值得客户信赖的人力资源解决方案提供商和全球合作伙伴,是中国人力资源服务行业最具竞争力和品牌价值的FESCO(北京外企服务集团)与全球人力资源服务行业领航者The Adecco Group(德科集团)于2010年成立的一家中外合资人力资源服务企业,为企业及个人提供业务外包、人事服务、招聘猎头和员工福利等人力资源解决方案。目前,FESCO Adecco在浙江、陕西、重庆、深圳、苏州设立了分支机构,全国服务人数超过200万名,服务客户超20,000家。
公司主页