更新于 1月13日

爬虫/数据开发工程师

面议
  • 南京建邺区
  • 5-10年
  • 本科
  • 全职
  • 招1人

雇员点评标签

  • 工作环境好
  • 同事很nice
  • 团队执行强
  • 氛围活跃
  • 人际关系好
  • 交通便利
  • 实力大公司
  • 吃住环境好

职位描述

爬虫开发数据采集计算机软件
岗位职责
(1)负责服务端基于Java / Python编程技术实现系统内外部数据同步、数据采集及数据分析等功能模块的编码工作,确保数据处理过程的代码质量与可维护性;
(2)参与技术方案设计,与项目经理、前后端开发、AI开发协作,推动数据采集需求与系统业务逻辑的精准对接;
(3)设计并开发数据采集模块,通过爬虫技术抓取外部公开数据,结合 ETL 工具实现数据同步,完成数据解析、清洗、转换及结构化入库;
(4)遵循公司代码规范,编写高可复用的爬虫与数据处理代码,参与代码审查,优化数据采集性能(如分布式爬虫架构)与反爬策略(如 IP 池管理);
(5)参与数据模块的测试、联调及上线工作,确保内外部数据的一致性、准确性,保障系统中数据相关功能的交付质量。

任职资格
(1)本科或以上学历,计算机科学、软件工程、数据科学等相关专业;
(2)5 年及以上 Java 开发经验,3 年及以上爬虫与数据开发复合经验,具备爬虫类项目经验,具备企业级数据采集与处理的项目落地能力。有爬取过招标类网站数据经验者优先考虑;
(3)熟悉 Spring Boot、MyBatisplus开发框架,能设计数据采集模块与投标系统的接口集成方案;
(4)精通 MySQL/PostgreSQL 数据库,掌握索引优化、分库分表及数据建模,能设计爬虫与内部数据的存储架构;熟悉 Redis 缓存、Kafka 消息队列,实现数据实时同步与异步处理;
(5)精通 Scrapy、HttpClient 等爬虫框架,掌握 IP 池轮换、请求频率控制、UA 随机化等反爬技术;熟悉 Selenium、Puppeteer 等,能抓取动态页面数据;熟练使用 BeautifulSoup/JSoup 等解析 HTML,通过正则表达式提取关键信息;了解分布式爬虫架构(如 Scrapy-Redis),具备 TB 级情报数据采集与处理经验;
(6)熟悉 ETL 工具(如 Kettle、DataX)或其他数据同步框架,能完成企业内部系统平台的数据对接;熟悉数据清洗、转换规则,能基于业务规范设计数据校验逻辑;掌握 SQL 优化技巧,能编写复杂查询语句实现数据关联分析;了解数据可视化基础(如 ECharts 图表开发),可配合前端展示数据采集结果;
(7)熟练使用 Git 版本控制工具,理解前后端协作模式,具备容器化部署(Docker/Kubernetes)经验;
(8)能够适应出差。

工作地点

南京建邺区中通服咨询设计研究院有限公司

职位发布者

刘女士/企业HR

立即沟通
公司Logo中通服设计院公司标签
中通服咨询设计研究院有限公司始建于1963年,系致力于通信、建筑、信息化、电力、节能环保的咨询、设计、研究与实施的国家级重点高新技术企业,住建部、工信部等政府部门国家标准和行业标准制定单位之一,通信运营商集团总部主要技术支撑单位。国家发改委认定的国家企业技术中心,江苏省省长质量奖获奖单位。公司以“成为国内一流、国际有影响力的通信、建筑、信息化以及节能环保行业技术服务提供商”为愿景,多年来潜心传承智慧网络,创意与灵感构建无穷想象。公司定位于“新一代综合智慧服务商”,以中国通服智慧城市工程院为载体,智慧城市总承包建设能力处于国内领先地位。公司拥有一流的企业管理和有竞争力的薪酬体系,奉行“以人为本”、“上善若水”的企业文化。公司注重员工能力的提升和职业生涯发展,培育出一批高素质、高水平的学科带头人,期待优秀的你与我们共同发展成长!
公司主页