岗位职责:
1.设计并实现稳定高效的分布式网络爬虫系统,用于抓取互联网上的公开数据;
2.分析目标网站结构,开发针对性策略以应对反爬机制;
3.使用代理池、验证码识别、模拟浏览器等技术手段提高数据抓取成功率;
4.确保所有数据收集活动遵守相关法律法规及网站使用条款;
5.维护和优化爬虫系统,确保其适应不断变化的目标站点;
6.配合团队成员,将抓取的数据无缝集成至公司内部的数据管道;
7.对爬取的数据进行初步清洗、去重、格式化处理;
8.开发自动化脚本完成数据解析、转换、归一化工作;
9.构建ETL流程,确保数据准确无误地加载到数据库或数据仓库;
10.负责数据的质量控制,包括但不限于检测异常值、填充缺失数据等;
核心技能:
1.熟悉python语言,熟悉常用库如PySpider, BeautifulSoup, Scrapy, pandas等
2.理解并能运用多线程/进程、异步编程提升效率;
3.深入理解HTTP协议及其变种,掌握RESTful API调用;
4.熟练掌握HTML/CSS/JavaScript,了解前端渲染逻辑;
5.掌握常见反爬措施及应对方案,如验证码识别(滑块、极验)、动态IP切换、User-Agent伪装等;
6.有JS及APP逆向经验,包括代码反混淆、Hook 调试(如 Frida、Xposed)、加密算法还原(如 JSVMP、AES),熟悉主流抓包工具(Charles、Fiddler)。
7.熟悉SQL语言,具备MySQL、PostgreSQL等关系型数据库经验;了解非关系型数据库(MongoDB, Redis)的基本操作;
8.对大语言模型,知识工程有一定了解;
9.掌握Git版本控制系统,有良好的代码管理习惯;具备良好的问题解决能力与团队协作精神,能独立分析并解决复杂技术难题,适应快速迭代的工作节奏。
薪资福利:
1、具有竞争力的薪资——高于行业平均水平的薪酬,一年两次调薪机会,努力就会有回报。
2、丰富完善的福利——五险一金+超长带薪年假+年终奖+各种团队建设活动+户外拓展培训+国内外旅游奖励+年会+各类亲子活动
3、工作时间——周一至周五:8:30——18:00,午休两小时,周日:14:00—18:00。法定节假日按国家标准休假,更有8—15天超长带薪年假和各类法定带薪假期。
4、职业发展规划——无空降高管,全部由内部晋升提拔!提供科学的考核体系,健全的晋升机制以及广阔的发展空间。
5、完善的员工培训——提供专业培训,涵盖专业知识、产品知识、沟通技巧、管理技巧、企业文化等,全方位提升个人综合能力。
6、办公环境——5A级办公写字楼,环境优美,设施设备齐全。
7、团队文化——我们相信团队力量,相信时间的复利,相信趋势的势不可挡!
公司地址:湖北省武汉市江汉区江旺路8号红T时尚创意街区5栋3层——博看网。
(可地图导航“博看网”到公司附近)