该职位已失效,看看其他机会吧

python爬虫工程师

8000-12000元

职位描述

PythonScala数据清洗数据采集爬虫开发分布式爬虫ScrapyPySpiderNutchWebMagic新媒体
岗位职责:
1、负责设计和开发分布式爬虫和调度系统,爬虫核心算法和调度策略优化;
2、负责部分网站验证码破解和现有爬虫系统效率的提升;
3、负责网络数据抓取规划和数据链路规划、高效且稳定爬取指定网站的数据;
4、构建高可用性、高可扩展性的网络信息搜集平台;
5、优化现有数据清洗,数据提取,结构化,入库等过程;
6、有爬取新媒体数据的实战经验,如:微信公众号、微博、抖音、快手、西瓜、头条等
7、会解密,各种验证码,滑块验证码,加减乘除,协议爬取,新媒体爬取等,数据库,js逆向,分析数据标签化
8、熟练掌握正则表达式、XPath、json数据传输、HTML、CSS、js等网页信息抽取技术。
9、熟悉各种爬虫技术:adsl拨号、正则表达式、脱壳技术、加密、图片破解、二维码识别、滑块验证码破解、httpClient、分布式爬虫调度、代理ip调度算法、配置化爬虫、授权爬虫;
任职要求
1、计算机相关专业,python语言,三年以上爬虫经验;
2、有独立负责过爬虫平台搭建、爬虫系统处理经验,爬虫项目规划能力;
3、熟悉Scrapy、Pyspider、nutch、webmagic等主流爬虫框架使用,了解js引擎技术等优先考虑;
4、熟悉js逆向,混淆原理,js语法树,客户端常用签名算法等;
5、具备web挖掘等搜索引擎相关知识,有丰富的网络爬虫、网页去重、网页信息抽取的经验;
6、掌握网页抓取原理及技术,包括基于Cookie的登录管理,基于headless的采集,熟悉正则表达式、XPath、Jsoup等网页信息抽取技术;
7、熟悉Linux平台开发、常用操作及命令,良好的编码习惯,有独立思考的能力,善于解决问题;
8、具备较强的团队协作精神,工作责任心强,良好的沟通、理解和执行能力。
查看全部

工作地点

石家庄裕华区湘江道239号

职位发布者

崔晓飞/人事经理

刚刚活跃
立即沟通
公司Logo河北华网计算机技术有限公司
河北华网计算机技术有限公司隶属于河北省通信建设有限公司,注册资金1000万元,公司以软件开发、系统集成、电信增值业务等为主要工作内容,通过了软件企业认证,可以为各行业客户提供优良的信息化产品及满意的技术支持和服务。公司2008年组建,目前有员工约60人,包括软件开发、软件测试、系统集成、市场开发、项目管理等多方面的专业技术人员,本科及以上学历专业人才占到全部人数的80%以上。公司承接了众多信息化系统项目的研发,与国内三大通信运营商、多家知名院校、企事业单位建立了良好的合作关系,在多个行业形成了大量成功案例,受到用户一致好评,在同行业中拥有极高的信誉和口碑,我们诚挚地期待在更广阔的领域与您的合作!公司实行五天工作制,入职员工享有五险、带薪休假,每年安排定期体检;公司薪酬包括工资、绩效、补助等,有全勤补助、加班补助、交通补助、通信补助等,另外还有项目奖、半年奖、年终奖等。公司期待专业人士的加盟,共创信息化发展事业的未来。公司网站:www.huawangsoft.com总公司网站:www.hebccc.com
公司主页