更新于 5月26日

爬虫工程师-定向爬虫方向【急招】

1.8-3.5万
  • 北京 海淀区
  • 1-3年
  • 本科
  • 全职

职位描述

Python数据采集爬虫开发requestsScrapyBeautifulSoup反爬对抗⾳视频流媒体云计算人工智能
岗位职责
1. 定向爬⾍开发:针对指定垂直⽹站(如电商、社交、招聘、新闻等)进⾏精准数据采集,完成从⻚⾯解析、字段提取到结构化落地的全流程开发。
2. 反爬与⻛控对抗:分析⽬标站点的反爬机制(如动态 token、请求参数加密、滑块/图形验证码、IP 频率封禁等),设计并实现代理轮换、请求模拟、降速绕⾏等解决⽅案。
3. 动态内容处理:针对 SPA 或强 JS 渲染⻚⾯,使⽤ Selenium / Playwright / Puppeteer 等浏览器⾃动化⽅案完成数据抓取,平衡抓取效率与资源开销。
4. 数据存储与清洗: 对抓取的视频进⾏ MD5 去重校验,将视频⽂件安全落地⾄指定的存储介质(如NAS/OSS),并将元数据结构化写⼊ MySQL / MongoDB。
5. 稳定性与效率优化: 优化视频⼤⽂件的并发下载逻辑,提升⽹络带宽利⽤率;建⽴抓取任务⽇志与告警机制,保障脚本的⻓期稳定运⾏。
职位要求
1、本科及以上学历,计算机相关专业,具备扎实的计算机⽹络与前端基础知识(HTML/CSS/JS/DOM结构)。
2、精通 Python,有 2 年以上实际爬⾍开发经验(接受优秀应届⽣或培训经历但项⽬经验丰富者),⾄少独⽴完成过 3 个以上垂直站点的定向抓取项⽬。
3、熟练使⽤ Requests / Scrapy / BeautifulSoup / lxml 等常规爬⾍⼯具,并能熟练运⽤ XPath 与CSS 选择器进⾏复杂⻚⾯解析。
4、深⼊理解 HTTP/HTTPS 协议,能通过抓包⼯具(Chrome DevTools / Fiddler / Charles)分析请求链路、Cookie、Header 及常⻅的参数加密逻辑(如简单 sign、timestamp 等)。
5、具备实际的反爬对抗经验。
6、熟练使⽤多线程/异步(asyncio, aiohttp)等技术提升下载吞吐量;熟练掌握⾄少⼀种数据库(MySQL / MongoDB)进⾏数据索引与去重。
加分项
1. 熟悉 m3u8、DASH 等常⻅流媒体传输协议及⾳视频封装格式的处理(如 FFMPEG 的结合使⽤)。
2. 有过 TB 级别以上⼤⽂件并发下载或清洗项⽬的实操经验。

工作地点

工作地点
北京海淀区得实大厦11
位置图标
完善简历

客户公司信息

客户公司名称 北京智谱华章科技股份有限公司
客户公司地址 北京市中关村东路1号院9号楼10层整层北京市海淀区清华园街道中关村东路1号院9
客户公司人数 500-999人

公司信息

四川智服人力资源有限公司

B轮 · 500-999人 · 人力资源、人力资源 已审核 已审核

283 个在招职位

公司介绍

四川智服是社宝信息科技(上海)有限公司的全资子公司。社宝科技,坚持以“让社会更高效”为使命,创建完善的一站式人力资源数字化服务云平台。充分融合互联网平台+SaaS云计算技术,为雇员、企业、政府及事业单位打造一站式人力资源全流程服务系统,将招聘、背调、入职、社保/公积金、商业保险、雇员福利等传统模块串联、整合,实现一体化的人力资源服务链条,帮助企业降本增效,实现价值创新。凭借优质的产品和创新的服务模式,社宝科技发展迅猛,企业综合实力快速上升!  创始人/CEO李贤威先生,拥有丰富的人力资源行业从业经验,目前担任北京人力资源服务行业协会副会长、上海服务行业协会副会长,京津冀大数据协会人力资源大数据协会会长,还获得“中国人力资源服务业年度十大人物”、“新浪中国经济潮流人物TOP40”,“亚太人力资源服务奖——创业新星奖”、“静安区首批中青年拔尖人才”、“上海市青年创业英才”、“上海市新锐型企业家”、“中国人力资源服务100人”、“新产业经济行业榜单年度经济创业菁英”、“静安区青年拔尖人才”等荣誉称号,并入选上海“千帆行动”企业家计划。  短短数年间,社宝科技服务超过12000家企业,涵盖互联网、餐饮、零售、快消、教育、金融、物流运输等数十个行业,累计服务人数超过100万。成为中国石化、中兴通讯、上海宝钢、碧桂园、万科、招商银行、兴业银行、东芝、美的、首旅如家、顺丰速运、圆通速递、盒马鲜生等100余家中外500强及行业标杆客户专业的人力资源合作伙伴。

工商信息

企业名称 四川智服人力资源有限公司
企业类型 有限责任公司(自然人投资或控股的法人独资)
法人代表 刘天才
经营状态 存续
成立时间 2018-07-03
注册资本 1510万元
查看全部信息

认证资质

营业执照信息 人力资源服务许可证

相似职位

查看更多

爬虫工程师

2-4万 上海微创软件股份有限公司
大专 Python 数据采集 人工智能 在线音乐/视频/阅读

python爬虫工程师(高级)

2-2.7万 华能信息技术有限公司
本科 5-10年 Python 爬虫开发 Heritrix 计算机软件

高级爬虫工程师(线上兼职/远程办公)

2200-4000元/周 郑州岩旭科技有限公司
本科 Python SQL Java 数据挖掘 数据清洗 数据采集 Heritrix Nutch 产业互联网平台 云计算 信息安全 周结

爬虫工程师

6000-12000元 北京迈迪培尔信息技术有限公司
本科 数据挖掘 数据清洗 数据采集

爬虫工程师

1.5-2万 北京间微科技有限责任公司
本科 3-5年 Python 爬虫开发 数据采集 数据清洗 数据挖掘

后端工程师

1.6-2.2万 北京通合智能科技有限公司
本科 3-5年 爬虫开发 分布式爬虫 反爬虫 云计算 计算机软件

爬虫工程师

7000-10000元 北京云享满天星物业管理有限责任公司
本科 1-3年 Python 爬虫开发 反爬虫 Scrapy requests 物业行业数据采集 数据清洗结构化 爬虫监控运维

数据搜索引擎主管

1.3-2.6万 北京阿尔法风控科技有限公司
本科 3-5年 Python Java C++ 数据采集 爬虫开发 分布式爬虫 Django 餐补 交通补助 带薪年假 定期体检 五险一金 绩效奖金 年终分红

爬虫工程师-定向爬虫方向【急招】

1.8-3.5万 四川智服人力资源有限公司
本科 1-3年 Python 数据采集 爬虫开发 requests Scrapy BeautifulSoup 反爬对抗 ⾳视频 流媒体 云计算 人工智能
最新招聘
热门城市
热门职位
热门公司