该职位已失效,看看其他机会吧

急招爬虫工程师,双休,团队氛围好

6000-8000元
  • 深圳南山区
  • 1-3年
  • 学历不限
  • 全职
  • 招1人

职位描述

Python新媒体电子商务在线音乐/视频/阅读互联网云计算/大数据
岗位职责
1. 数据抓取实现:根据业务需求,负责海外电商、社交、新闻类网站的爬虫开发与日常维护。
2. 动态渲染处理:运用自动化工具抓取 JS 渲染的动态页面,确保数据的完整性。
3. 多媒体采集:负责图片、音视频资源的下载及基础分类存储,处理简单的格式兼容性问题。
4. 反爬应对:处理常见的验证码、IP 频率限制及简单的混淆加密逻辑。
5. 数据清洗:对抓取到的非结构化数据进行清洗、去重,并导入数据库。
任职要求
1. 工作经验1-3年,学历不限
2. 核心技术基础
编程语言:熟练掌握 Python,代码风格规范,熟悉多线程、多进程及 asyncio 异步编程。
爬虫框架:熟练使用 Scrapy、Requests 或 Playwright 等主流爬虫框架及库。
数据解析:精通 JSONPath、XPath、BeautifulSoup 或正则提取,能高效处理复杂的 HTML 结构。
3. 网页技术与模拟
自动化工具:熟悉 Playwright 或 Selenium,能够模拟人工点击、滚动、翻页等交互操作。
抓包分析:熟练使用 Chrome DevTools、Fiddler 或 Charles 进行网络请求分析,定位关键数据接口。
基础逆向:了解常见的 JS 加密逻辑(如 MD5、Base64、简单的时间戳加密),能处理基础的 Cookie 校验。
专项与加分项
● 多媒体处理:了解 FFmpeg 或 Pillow,能完成基础的视频转码、图片裁剪或封面抓取。
● 海外环境:有海外代理(如 Bright Data, Oxylabs)使用经验,了解如何在海外服务器上部署爬虫。
● 存储能力:熟悉 MongoDB、Redis 或 MySQL,能编写高效的增量抓取逻辑
查看全部

工作地点

深圳南山区迅雷大厦0

职位发布者

赵先生/HR

昨日活跃
立即沟通
公司Logo新宇智慧
深圳新宇智慧科技有限公司,前身为深圳市立创翻译有限公司。是翻译行业领先的语言技术解决方案的供应商。我们为国际化公司、政府、个人提供全方位的多语言服务以及相关的技术解决方案和服务。帮助客户在国际市场上获得成功。我们以客户的需求为导向,聚焦在语言领域不断创新,精益求精,使公司始终处于行业前沿。公司总部设在具有中国珠三角“曼哈顿”美称的深圳前海经济开发区,在合肥设有制作中心,北京、香港设有分公司,同时在上海、剑桥设有办事处。深圳市立创信息系统有限公司(公司网址:http://www.hkgsl.com)公司福利:周末双休,带薪年假,五险一金,节日福利,专业培训,立即上岗,弹性工作,员工旅游,英语角等公司理念:“客户为先、员工为本、精诚服务、追求卓越”公司愿景:“客户全球化最佳合作伙伴”
公司主页