该职位已失效,看看其他机会吧

爬虫实习生

100-150元/天
  • 广州海珠区
  • 本科
  • 实习
  • 招1人
  • 6个月
  • 5天/周

职位描述

可转正实习证明PythonHTML分布式爬虫数据挖掘数据采集爬虫技术设计和开发信息入库熟悉SCRAPY熟悉LINUX电商社交
【欢迎大三或者研三在读生投递】【要求每周可全勤到岗,不接受线上实习】
岗位职责:
1、负责多平台信息爬取和页面内容的提取分析;
2、分析各种网站、网页、链接的形态,分析网站数据结构,提取业务需求数据;
3、解决技术包括反爬、采集速度等问题;
4、爬取数据处理、清洗、入库,数据质量核对。
岗位要求:
1、能够完成爬虫技术设计和开发,找寻相关网站,并从中爬取数据、信息入库整理;
2、熟悉python语言、熟悉scrapy及其拓展模块;
3、熟悉Mysql、MongoDB等数据库的使用;
4、熟悉HTTP协议,掌握Session、Cookie、Ajax等,了解常用验证码识别技术;
5、能够维护和优化已有的爬虫服务,按需求做增量采集,数据监控,拓展数据源;
6、能够解决封账号、封IP采集等问题,解决网页抓取、信息抽取等问题,构建完善的网络信息收集平台;
7、熟悉Linux常用命令、docker容器技术和git技术者优先;
8、有深度学习如目标检测、语义分割等项目经验者优先考虑。
查看全部

工作地点

广州海珠区TCL大厦2301

职位发布者

梁女士/HRBP

立即沟通
公司Logo广州信安数据有限公司
广州信安数据有限公司成立于2016年,从事特定细分市场6年,创始团队具有丰富的产业级数据管理理论和实践经验。公司以“数据信安,强国富民”为企业愿景,致力于成为中国最好的产业级数据治理及要素运营服务商。信安数据聚焦大数据行业,面向电力、航空、金融、政务等数据要素密集市场的头部客户,围绕数据治理及数据要素流通领域,提供包括咨询、产品、运营、创新在内的一体化综合解决方案,有效帮助客户盘活数据资产、促进数据价值释放。信安数据以南方电网、南航、各地政数局等超大型国企及政府单位为主要客户,建立了稳定的客群。同时积极与BAT、联通、移动、华为等渠道厂商、DAMA中国、中国信通院等行业联盟及暨南大学、广州大学、华中科技大学等高校合作,形成了“产学研”一体的生态体系。信安数据自成立以来,高度重视企业资质和知识产权建设,已先后通过了AAA级信用企业认定、ISO27001、ISO20000、CMMI3、CS2等认证;成为DAMA中国理事会员单位、BDIAC和TC606及数据安全产业研究工作组成员单位。拥有多项软件著作权和发明专利,积极参与各类创新大赛并获奖;深度参与国家标准规范及区域创新规划工作,具有很高的市场美誉度及品牌影响力。
公司主页