该职位已失效,看看其他机会吧

爬虫工程师(python)

1.2-1.8万
  • 上海徐汇区
  • 1-3年
  • 本科
  • 全职
  • 招3人

雇员点评标签

  • 工作环境好
  • 同事很nice
  • 人际关系好
  • 团队执行强
  • 氛围活跃
  • 免费班车
  • 管理人性化
  • 准时发工资

职位描述

Python反爬虫分布式爬虫爬虫开发FlaskDjango反爬人工智能互联网
教育背景与工作经验
o 本科及以上学历,计算机相关专业
o 1 年以上数据采集工作经验
• 核心技能
o 精通 JavaScript 逆向工程
o 有主流站点 Web 端大规模数据采集经验
o 具备多类型验证码处理能力:包括滑块、点选、Google reCAPTCHA、
旋转验证码等
o 熟悉 APP 脱壳、逆向、反编译及自动化相关技术
o 具备 AST 反混淆 JavaScript 代码及 JSVMP 算法还原能力
• 附加技能(优先考虑):具有风控应对经验(如 Akamai 并发、Cloudflare 等
反爬虫策略处理经验)
3 岗位描述
3.1 负责大模型相关数据采集,包括不限于海内外文本,图片,音视频数据;
3.2 负责对目标网站或 APP 进行反爬突破、协议破解和提取关键数据;
3.3 负责反爬虫策略研究,代理、验证码识别等采集支撑服务建设;
3.4 参与大规模数据处理流程的设计与开发,包括但不限于数据采集、清洗、转
换、存储等过程。
4 服务范围与内容
4.1 服务目标
协助开展各类数据采集业务(包括但不限于预训练数据采集、全站数据采
集、文件文档下载等),针对多样化的需求种类,特别是定向采集、高定数
据字段以及目标站点反爬严重等情况,提供定制化解决方案。具体包含但不
限于以下内容:
1. 大模型相关数据采集
o 海内外文本、图片、音视频等数据采集
o 保证数据多样性及高质量
2. 反爬虫策略研究与实施
o 深度分析目标网站或 APP
o 突破反爬措施(协议破解、代理使用、验证码识别等)
o 提供反爬支撑服务建设
3. 大规模数据处理流程设计与开发
o 数据采集、清洗、转换、存储的全流程实现
o 确保数据准确性与可用
查看全部

工作地点

上海徐汇区模速空间(SMC)1

职位发布者

胡雨分/高级招聘顾问

立即沟通
公司Logo软通动力信息技术(集团)股份有限公司
软通动力信息技术(集团)股份有限公司(以下简称“软通动力”)是中国领先的全栈智能化产品与服务提供商,2005年成立于北京,始终坚持创新,致力于成为一家具有全球影响力的科技企业。公司提供软件与数字技术服务、计算产品与智能电子、数字能源与智算服务以及国际化服务,员工90000人。目前,公司在10余个重要行业服务超过2600家国内外客户,其中超过230家客户为世界500强或中国500强企业。公司位列2024年中国 IT服务市场第一,入选2025年财富中国 500强企业,位列429。软通动力拥有软通咨询、软通金科、软通国际、软通工业互联、软通华方、机械革命、恒悦等业务子品牌,北京、江苏两大智能制造基地,布局北美、日韩、亚太、中东四大区域市场,在全球60余个城市构建完善的全球业务网络。公司锚定AI前沿,以人工智能工程能力为基础,科学智能(AI for Science)为引领,布局智能制造、ICT软硬基础能力和具身智能等领域,打造新产业链闭环,为客户提供场景智能(AIAgent)、终端智能(AI Terminal)、计算智能(AIInfra)的全栈智能服务。软通动力设立30个能力中心,拥有1个国家级工程实验室,6个省市政府认定的工程、技术实验室及研发中心,1个博士后科研工作站,依托全球软硬生态协同创新体系,不断探索前沿技术应用潜力。公司旗下教育品牌软通教育,拥有一家全日制本科学院——郑州西亚斯学院数字技术产业学院;全国合作院校700多所,设有70多个校企联合人才培养基地,通过校企合作、协同育人,为社会培养高素质应用型人才。软通动力先后荣获“2024新经济企业500强”、“2024年中国软件和信息技术服务竞争力百强企业”、“中国软件产业40年贡献企业”、“2024年信创领军企业”、“省级科技进步奖”,入选沪深300、中证A500、创业板50等核心指数,深交所信息披露最高“A”级评价,连续三年获得Wind ESG评级AA级等权威认可;拥有专利380+项、全球软件工程领域最高级别CMMI V2.0成熟度5级评估认证、信息系统建设和服务能力最高等级——杰出级(CS5)、信息技术服务标准(ITSS)运维能力成熟度一级认证等专业资质,支撑公司更优质的服务体系。
公司主页