更新于 5月9日

爬虫工程师 (MJ001158)

1.5-2.2万
  • 南昌南昌县
  • 5-10年
  • 本科
  • 全职
  • 招1人

职位描述

数据采集爬虫开发分布式爬虫
岗位职责 1. 负责设计、开发和维护高效、稳定的爬虫系统,满足公司各类数据采集需求,涵盖市场数据、行业动态、竞品信息等; 2. 综合运用Python、Java、Node.js等编程语言进行爬虫程序开发,根据不同网站的结构和反爬策略,选择合适的技术方案,确保代码具备良好的质量、性能和可扩展性; 3. 深入分析网页结构,熟练运用HTML、CSS、JavaScript知识,精准解析和提取目标数据,处理复杂的动态网页内容,如AJAX加载、JavaScript渲染数据等; 4. 与数据分析师、算法工程师等团队紧密协作,理解数据需求,提供精准、完整的数据抓取解决方案,保障数据的准确性和及时性,为公司的业务决策和算法训练提供有力支持; 5. 实时监控爬虫运行状态,及时发现并解决性能瓶颈、数据丢失、反爬限制等问题,通过优化代码、调整抓取策略等方式,持续提升爬虫的抓取效率和稳定性; 6. 研究并应对各类反爬机制,如IP封锁、验证码识别、用户行为检测等,运用代理池、验证码识别技术、模拟用户行为等手段,实现有效的反反爬策略,确保爬虫能够稳定运行; 7. 定期维护和更新现有爬虫系统,根据网站结构变化和业务需求调整,及时优化抓取逻辑,保证数据的持续获取和有效性; 8. 编写详细、规范的技术文档,记录爬虫系统的设计架构、开发流程、关键代码逻辑以及维护要点,方便团队成员进行技术交流和后续维护。 任职要求 1、计算机科学、软件工程、数学等相关专业本科及以上学历; 2、4年以上爬虫开发工作经验,具备多个完整爬虫项目的开发和维护经验; 3、有过处理反爬策略的成功案例,如绕过验证码、突破IP封锁等,能够分享有效的反反爬经验和技术手段; 4、熟练掌握Python、Java、Node.js中至少两种编程语言;精通HTML、CSS、JavaScript;熟悉HTTP/HTTPS协议;拥有数据库使用经验,熟练掌握SQL(如MySQL、Oracle)和NoSQL(如MongoDB、Redis)数据库的基本操作,能够设计合理的数据存储结构;熟悉分布式爬虫技术,如Scrapy - Redis等框架,能够构建大规模、高性能的分布式爬虫系统,提升数据采集效率; 5、具备较强的问题分析和解决能力,能够快速定位和解决爬虫开发过程中遇到的各种技术难题,如数据抓取异常、性能优化等,善于通过调试工具和技术手段进行问题排查; 6、对新技术保持敏锐的学习热情和好奇心,能够快速掌握并应用新的爬虫技术和工具,适应不断变化的技术环境和业务需求。

工作地点

南昌南昌县江西济民可信集团有限公司(总部)
以担保或任何理由索要财物,扣押证照,均涉嫌违法。一经发现,

职位发布者

蔡先生/招聘配置经理

三日内活跃
立即沟通
济民可信
济民可信创建于1999年,制药历史可追溯至上世纪五十年代,现有员工12000余名,总部位于中国南昌,在江西、北京、上海、江苏、浙江多地设有产业平台和研发机构。2017年,集团营业收入突破237亿元,跻身中国制药工业100强第6位、中国医药工业100强第10位。秉承创新驱动的战略方针,公司专注于现代中药、化学药、生物制剂、保健品的研发、生产和销售,拥有7家制药基地、1座国际级博士后工作站、1个获CNAS认证的国家级实验室、2个省级工程技术中心,并在海外设立新药研发团队。当前,集团在心脑血管科、肾科、肿瘤科、抗感染及急救药物领域取得丰硕成果,核心产品“金水宝”、“醒脑静”、“康莱特”、“悉能”、“立幸”、“黄氏响声丸”、“九华痔疮栓”等在全国细分品类拥有较高市场份额。济民可信始终坚持“济世惠民、信待天下”的企业使命,积极投身社会公益慈善事业,各项慈善捐助累计3.17亿元,并荣获中华慈善总会“中华慈善突出贡献奖”。展望未来,济民可信将继续提供值得信赖的医药产品与诊疗服务,为提高人类的健康水平和生命质量而不懈努力!
公司主页