更新于 今天

python高级爬虫工程师

1.5-2.5万
  • 北京西城区
  • 3-5年
  • 大专
  • 全职
  • 招1人

职位描述

Python爬虫开发反爬虫数据采集
非外包,自研产品项目!!
核心职责
1.体系化建设:主导分布式爬虫系统的架构设计、开发与落地,构建高可用、可扩展的抓取体系,保障系统稳定性达99.9%以上。
2. 策略迭代与优化:结合业务场景制定动态抓取策略,优化调度算法与解析规则,实现数据采集效率提升30%以上,确保数据全面性与准确性。
3. 反爬攻坚与风控:深入研究前沿反爬技术(如JS逆向、行为验证等),建立多维度反爬策略库,解决封IP、验证码、动态渲染等核心难点,降低账号风险率。
4.数据全流程管理:设计数据清洗、脱敏、结构化存储方案,对接Kafka、MongoDB、Hadoop等数据组件,构建从抓取到落地的全链路监控体系,实现数据质量可追溯。
5.技术创新与沉淀:跟踪爬虫领域新技术趋势,推动技术创新(如AI辅助解析、智能调度等),沉淀可复用的抓取工具与解决方案,提升团队技术能力。
任职要求
硬性背景
1.本科及以上学历,3年以上爬虫工作经验,计算机科学与技术、软件工程、数据科学等相关专业,专业基础扎实,具备3-5年数据抓取领域实战经验。
2.熟悉《网络安全法》《数据安全法》等法律法规,具备合规数据采集方案设计能力,能确保数据抓取全流程合规可控。
3.熟练掌握Python编程,深入理解Scrapy/Feapder/Crawley等至少一种爬虫框架;精通MySQL、MongoDB、Redis等存储技术,熟悉Kafka消息队列及分布式系统原理。
4.精通Fiddler/Charles/Reqable等抓包工具,熟练运用正则表达式、XPath、CSS Selector解析数据;具备扎实的JS逆向、AST混淆分析能力,能独立攻克滑块、点选等验证码。
核心能力
1.架构与开发能力:具备大型爬虫系统架构设计经验,熟悉多线程、多进程、异步IO等并发模型,能独立完成爬虫系统开发、部署与运维,有性能调优及容灾方案落地案例。
2.反爬与攻坚能力:对反爬技术有深入研究,具备敏锐的技术洞察力和问题拆解能力,能快速定位并攻克数据抓取过程中的各类技术难点,保障采集工作顺利推进。
3.数据合规与管控能力:具备较强的数据合规意识,能结合法律法规设计合规的数据采集、处理方案,构建数据全流程质量管控体系,确保数据安全与质量。
4.沟通与协作能力:逻辑思维清晰,具备优秀的问题解决能力,对技术难题有强烈攻坚欲;具备良好的跨部门沟通协作能力,能高效配合研发、数据等团队推动业务需求落地。
(三)优先条件
1.具备AI辅助数据解析、智能爬虫调度等相关技术应用经验,有技术创新落地案例者优先。招投标 / 法规相关业务经验者优先。
2.有大规模分布式爬虫系统性能调优、容灾备份相关经验,能应对高并发数据采集需求者优先

工作地点

北京市西城区天桥街道南纬路31号5层

职位发布者

陆女士/人事专员HR

刚刚活跃
立即沟通
公司Logo北京国金汇德工程管理有限公司
北京国金汇德工程管理有限公司成立于2011年,是一家以信息化项目咨询为主的专业咨询公司,高新技术企业、专精特新企业。主要业务涉及信息化项目评审、财务收支审计、造价咨询、跟踪审计、标准编制、资产评估、软件开发、专业培训等方面。为客户提供综合的、一体化、全生命周期的解决方案。公司已实现审计流程、审核依据、交付成果的数字化,是国家标准编制单位、信息化概(预)算定额主编单位、信息化项目审计领军企业。公司总部设立在北京,全国已成立21家分公司,17个办事处,遍及全国各个省份,为客户提供优质高效、可持续增值的专业化服务。目前公司博士、硕士占比10%,拥有各类专业技术证书逾400个,软件著作权68项和技术专利1项,建立了以专业技术为支撑,高学历、职业化的综合咨询人才梯队。经过十余年的发展和积累,公司客户遍及全国各地,被众多政府部门和大型企事业单位选聘为信息化项目咨询服务机构。创立十余年来,累计送审信息化项目金额近千亿,极大的为客户提高了资金使用效率、有效的控制了建设流程风险、保障了项目的实施质量,提升了项目管理标准。公司始终秉持着“诚信、责任、专业、共赢”的企业价值观,坚持党建引领企业发展,持续为客户提供专业、优质、高效的服务。在十余年的发展历程中与客户建立了长期互利共赢的合作关系,赢得了客户、员工及社会各方面的一致好评。
公司主页