更新于 2026-03-26 01:05:33

爬虫数据采集实习生

150-200元/天
  • 北京昌平区
  • 本科
  • 实习
  • 招1人
  • 3个月
  • 5天/周

职位描述

数据爬虫云计算/大数据计算机软件互联网IT服务
岗位职责
数据采集
1. 设计并实现网络爬虫程序,采集互联网公开数据
2. 解析HTML/XML/JSON数据结构,提取结构化数据
3. 使用代理IP池和反反爬策略应对目标网站限制
数据处理
1. 清洗和预处理采集数据,去除冗余和噪声
2. 构建数据校验规则,确保数据准确性和完整性
GIS应用
1. 使用ArcGIS/QGIS进行空间数据可视化分析
2. 整合地理信息数据与业务数据生成空间报告
系统维护
1. 监控爬虫运行状态,优化采集效率和稳定性
2. 定期维护采集工具和存储系统
任职要求
1.在读本科/研究生(计算机/地理信息/数学类专业优先)
2.. 熟练使用Python及Scrapy/BeautifulSoup/PyQuery等爬虫框架
3. 熟悉正则表达式、HTTP协议及常见反爬机制
5. 掌握MySQL/PostgreSQL数据库操作
5. 有数据清洗与处理项目经验
加分项
1. 熟悉ArcGIS/QGIS等GIS工具者优先
2. 了解PostGIS空间数据库者优先
3. 有分布式爬虫开发经验者优先
能力素质
1. 逻辑思维清晰,具备问题排查能力
2. 每周可稳定实习4-5天

转正机会:表现优异者可获得2026届校招直通终面资格

工作地点

北京昌平区石头科技大厦

认证资质

营业执照信息

职位发布者

赵女士/人事经理

昨日活跃
立即沟通
公司Logo淘数科技(北京)有限公司
淘数科技(北京)有限公司成立于2010年,位于北京昌平区,是一家数字智能领域的国家高新技术企业,主要为政企客户提供基于大数据和人工智能的数字智能产品和解决方案。核心优势:数据能力——收录中国全量6686万企业数据,1.63亿个体工商户数据,覆盖更全面、时效性更高、信息更精准。分析能力——专业的数据分析师、行业分析师团队,擅长针对客户业务需求,提供完整的深度解决方案,与华夏幸福产业研究院、北京大学、社科院等多家科研机构开展深度合作。行业经验——覆盖经济监测、商业决策等众多应用场景,为全国各地省市、产业园区提供产品服务,与中国电信、中国联通、海航集团等多家头部机构深度合作,落地数百个标杆项目案例,得到各界客户高度评价。团队实力——淘数拥有来自中国人民银行、百度、腾讯、微软中国等知名机构,清华大学、北京大学、哈尔滨工业大学、天津大学、北京邮电大学、北京理工大学等知名院校的成熟技术团队。我们的使命研发数字智能产品和解决方案辅助政府科学执政、帮助企业科学决策为国家经济发展、民族伟大复兴贡献智慧我们将以市场角度的场景化应用为研发目标,汇聚能解决实际问题的高端技术人才,充分调动创造力,切实解决政府、企业在数字经济时代发展中的诸多问题,助力产业结构优化升级,产业效率效益提升。
公司主页