该职位已失效,看看其他机会吧

爬虫数据采集工程师

1-1.5万
  • 北京海淀区
  • 1-3年
  • 本科
  • 全职
  • 招1人

职位描述

数据爬虫分布式爬虫Python互联网人工智能网络/信息安全
主要负责互联网的公开信息进行采集的工作,主要是需要接口分析、抓包代理、逆向工程等等。详情见岗责。
【岗位职责】
1、负责多平台信息(视频、音频、图片、文章等)爬取,包括APP端采集,agent相关数据采集等。
2、负责设计和开发分布式网络爬虫系统、技术选型。
3、参与数据采集平台架构设计和开发工作。
【岗位要求】
1、3年及以上网络爬虫相关、采集平台、RPA 相关开发经验。
2、熟练掌握Python编程语言及常用采集框架,深入了解框架提供的特性及其实现原理细节。
3、熟练掌握PC/Android自动化采集技术,如playwright,selenium、dirssionpage等。
4、研究爬虫策略和防屏蔽规则,解决封账号、封IP、验证码、混淆加密,页面跳转等难点攻克,提升网页抓取的效率和质量。
5、熟悉风控逆向相关技术,国内外验证码破解等;熟悉如何TLS 指纹、逆向、混淆、JS补环境等技术,以及各类加密算法,譬如(AES、RSA、Base64,Md5、SHA 系列等)。
6、具有良好的沟通能力、学习能力、分析解决问题能力,有较强的责任心、自驱力和成长型思维;
7、有长期规模化采集系统建设经验优先;有国外人机验证码破解经验优先;有computer use/phone use等agent相关数据采集经验优先。
查看全部

工作地点

北京智视数策科技发展有限公司-海淀区海泰大厦17F1741室

职位发布者

张女士/HRM

立即沟通
公司Logo北京智视数策科技发展有限公司
北京智视数策科技发展有限公司(VDI)成立于2019年,公司立足于广播电视与网络视听行业,是一家主要为政府客户和互联网客户提供网络视听节目内容监管解决方案的专业技术服务公司。公司团队累计中标政府部门 150个项目,具有 10年以上政府部门服务经验,从音视频内容监管、数据、技术软件提供服务闭环业态产品。内容涉及广播电视与网络视听节目内容监测、风险预警、舆情报告、预警报告、宣传矩阵搭建、数据平台搭建、监测平台搭建、政府数据结构化、大数据分析解决方案等。主要服务客户:中宣部、国家广电总局、北京市政府、北京广电局,上海广电局等 15个客户单位,30余个部门。互联网客户:抖音、爱奇艺、快手、微博、B站,滴滴等。
公司主页