岗位职责
数据采集
1. 设计并实现网络爬虫程序,采集互联网公开数据
2. 解析HTML/XML/JSON数据结构,提取结构化数据
3. 使用代理IP池和反反爬策略应对目标网站限制
数据处理
1. 清洗和预处理采集数据,去除冗余和噪声
2. 构建数据校验规则,确保数据准确性和完整性
GIS应用
1. 使用ArcGIS/QGIS进行空间数据可视化分析
2. 整合地理信息数据与业务数据生成空间报告
系统维护
1. 监控爬虫运行状态,优化采集效率和稳定性
2. 定期维护采集工具和存储系统
任职要求
1.在读本科/研究生(计算机/地理信息/数学类专业优先)
2.. 熟练使用Python及Scrapy/BeautifulSoup/PyQuery等爬虫框架
3. 熟悉正则表达式、HTTP协议及常见反爬机制
5. 掌握MySQL/PostgreSQL数据库操作
5. 有数据清洗与处理项目经验
加分项
1. 熟悉ArcGIS/QGIS等GIS工具者优先
2. 了解PostGIS空间数据库者优先
3. 有分布式爬虫开发经验者优先
能力素质
1. 逻辑思维清晰,具备问题排查能力
2. 每周可稳定实习4-5天
转正机会:表现优异者可获得2026届校招直通终面资格