职位描述
1、系统设计与开发:运维现有的系统,编写高效的Python爬虫脚本,从指定的公开网站、API接口、APP、微信公号等渠道,自动化抓取多源数据;
2、数据处理与清洗: 对爬取到的原始数据进行清洗、去重、格式化、转换和集成,确保数据的准确性和一致性,使其满足报告研究人员的使用;
3、技术难题攻坚: 解决爬取过程中遇到的各种技术挑战,包括但不限于动态渲染(JS)、验证码识别、IP封禁、API限制等。
4、质量与效率: 建立数据质量监控体系,持续优化爬虫策略和系统架构,提升数据采集的覆盖度、及时性和效率。
5、合规与伦理: 严格遵守Robots协议、数据安全法与版权法规,确保所有数据采集活动的合法合规性。
【技术要求】
1、精通 Python 编程语言,熟练使用Python、Java、php语言,掌握 Scrapy, Requests, Selenium/Playwright 等主流爬虫框架和工具。
2、深刻理解HTTP/HTTPS协议,熟悉Web前端技术(HTML, CSS, JavaScript)。
3、具备处理复杂反爬机制(如IP速率限制、验证码、动态加载、用户行为检测、加密参数等)的实战经验。
4、熟悉至少一种数据库(如 MySQL, PostgreSQL, MongoDB, Redis)。
5、具备优秀的数据清洗和处理能力,熟悉 Pandas, NumPy 等工具。
6、了解分布式爬虫原理,有使用 Scrapy-Redis, Celery 等工具的经验。
符合条件且有相关经验的人员也可兼职录用本工作岗位
工作地址:北京市西城区天桥南大街1号天桥艺术大厦B1-104室
工作地点

公司信息
公司介绍
北京道略文旅科技有限公司成立于2008年,是中国专业的文旅产业、演艺产业、音乐产业研究咨询机构和内容服务平台。道略文旅将全部人财物力量聚焦在文旅、演艺和音乐等文化产业少数领域上,通过“一厘米宽度,一公里深度”的专注和钻研精神,努力成为细分领域最为专业的研究和咨询机构,成为“细分龙头”和“隐形冠军”。道略文旅下设子公司有:成都道略公司、上海道略公司、深圳道略公司、广西南宁道略公司² 独家数据库:13年来持续对旅游、演艺、音乐、戏剧等产业数据进行监测和抓取,形成了自己独有的数据库,连续多年成功为政府和行业客户提供具有前瞻性和创新性的咨询方案,并通过定期发布文旅、演艺、音乐等产业指南和专题研究报告。² 行业顶尖自媒体平台:构建了覆盖演艺、音乐、文旅、体育等领域的媒体矩阵,其中“道略演艺”“道略音乐产业”覆盖8万专业从业者,成为演艺、音乐行业最大的自媒体平台,“道略文旅”“音乐人攻略”“场馆经理人”等公众号也在行业内迅猛发展。² 国家省市级政府咨询:为文化和旅游部、上海文广新局、成都市政府、天府新区、海淀区、西城区等50余个政府相关部门提供文旅产业规划、旅游演艺定位策划、城市演艺、音乐项目研究和文旅内容资源整合、项目导入等服务。² 大中型文旅企业咨询: 成立至今,已为万达集团、恒大集团、金融街建设集团、新奥集团、长江传媒集团等近60家大中型企业提供演出、音乐、文化市场研究与分析、产业规划、演出场馆定位分析、演出票房数据监测服务。² 最专业行业活动:每年举办文旅、演艺、音乐产业博览会和论坛等,搭建了专业交流分享的平台,获得了政府部门、行业机构的全力支持。博览会全方位促进中国演艺、音乐、文化旅游产业的互动沟通,进一步推动中国文化产业升级发展,促进北京乃至全国的文化体制改革、促进文化产业的繁荣发展。

更新于 4月10日


