职位描述
爬虫开发数据清洗数据采集软件/IT服务
岗位职责:
1. 独立设计并开发高性能爬虫程序,针对不同类型的网站(静态、动态、APP 接口等)制定适配的采集策略。
2. 负责反爬机制的突破与应对,解决 IP 封禁、验证码识别 、 cookie验证等常见反爬问题。
3. 对采集到的数据进行清洗、 去重、格式转换等预处理工作,确保数据质量符合后续使用标准。
4. 搭建并优化爬虫监控体系,实时监控爬虫运行状态、 数据采集进度,异常情况及时告警并处理。
5. 调研新型数据采集技术与工具,结合公司业务需求引入合适的解决方案,提升工作效率。
6. 协助团队完成数据采集相 的紧急需求,如临时数据抓取、特定数据源调研等工作。
岗位要求:
1. 本科及以上学历, 计算机相关专业, 多年爬虫开发相关工作经验。
2. 熟练掌握Python 编程语言, 精通Scrapy、BeautifulSoup、Selenium 等爬虫相关框架与工具。
3. 熟悉HTTP/HTTPS 协议,了解常见的Web 前端技术(HTML、 CSS、JavaScript) ,能分析动态网页加载逻。
4. 具备反爬策略应对经验, 能独立解决 IP 代理、验证码识别、动态渲染等反爬问。
5. 熟悉 MySQL、MongoDB 等数据库的使用, 能完成数据的存储与基本的查询优化。
6. 具备良好的问题排查能力、沟通协作能力和责任心, 有较强的学习能力和技术钻研精神。
1. 独立设计并开发高性能爬虫程序,针对不同类型的网站(静态、动态、APP 接口等)制定适配的采集策略。
2. 负责反爬机制的突破与应对,解决 IP 封禁、验证码识别 、 cookie验证等常见反爬问题。
3. 对采集到的数据进行清洗、 去重、格式转换等预处理工作,确保数据质量符合后续使用标准。
4. 搭建并优化爬虫监控体系,实时监控爬虫运行状态、 数据采集进度,异常情况及时告警并处理。
5. 调研新型数据采集技术与工具,结合公司业务需求引入合适的解决方案,提升工作效率。
6. 协助团队完成数据采集相 的紧急需求,如临时数据抓取、特定数据源调研等工作。
岗位要求:
1. 本科及以上学历, 计算机相关专业, 多年爬虫开发相关工作经验。
2. 熟练掌握Python 编程语言, 精通Scrapy、BeautifulSoup、Selenium 等爬虫相关框架与工具。
3. 熟悉HTTP/HTTPS 协议,了解常见的Web 前端技术(HTML、 CSS、JavaScript) ,能分析动态网页加载逻。
4. 具备反爬策略应对经验, 能独立解决 IP 代理、验证码识别、动态渲染等反爬问。
5. 熟悉 MySQL、MongoDB 等数据库的使用, 能完成数据的存储与基本的查询优化。
6. 具备良好的问题排查能力、沟通协作能力和责任心, 有较强的学习能力和技术钻研精神。
工作地点
浦东新区上海亿通国际股份有限公司(博霞路)

认证资质
营业执照信息

更新于 6月5日



