更新于 今天

数据采集工程师

1-1.8万
  • 济南 历城区
  • 3-5年
  • 硕士
  • 全职
  • 招1人

雇员点评标签

  • 工作环境好
  • 同事很nice
  • 人际关系好
  • 氛围活跃
  • 免费班车

职位描述

PythonJava云计算/大数据计算机软件
岗位职责:
1.高难度采集体系建设:负责全国各级政府门户网站、政策信息平台的定向爬取,攻克动态渲染、复杂交互、反爬验证码及高频封禁等技术难题;
2.非结构化数据清洗:构建多格式解析链路(HTML、PDF、Word等),利用OCR及解析算法(如Unstructured,Marker)实现政策原文的高质量结构化提取;
3.AI驱动的智能化治理:结合大语言模型(LLM)构建政策标签化引擎,实现政策类别的自动分类、核心要素(发布机构、有效期、行业关键词)的精准提取与语义打标;
4.数据质量与监控:建立完善的数据质量评估(DQ)和预警体系,确保政策数据的时效性、完整性与准确性,维护稳定的增量采集任务流;
5.知识图谱支撑:参与政策知识图谱的底层架构设计,打通政策与企业、技术领域的关联关系,支撑研究院的AI咨询与决策产品。
岗位要求:
1.计算机相关专业,硕士及以上学历;
2.3年以上爬虫或数据采集经验,精通Python或Java;
3.熟练掌握Selenium,Playwright,Scrapy,Puppeteer中至少一种采集框架;
4.熟悉HTTP/HTTPS协议及各种反爬机制(IP池、浏览器指纹、JS逆向、滑动验证等);
5.熟悉ETL处理流程,有处理大规模非结构化文本的实战经验;
6.熟悉PromptEngineering,有利用LLM(如DeepSeek,GPT)或传统NLP模型进行文本分类、信息提取(NER)的实际项目案例;
7.熟练使用Docker容器化部署,熟悉Airflow,n8n或DolphinScheduler等任务调度工具;
8.熟悉PostgreSQL(pgvector)或Elasticsearch等搜索与向量数据库;
9.具备极强的逻辑思维,对政府政策信息的组织架构有一定敏感度;
10.具有较好的抗压能力,能针对政府网站的频繁改版快速给出响应方案;
11.有RSSHub社区贡献经验或自建过大规模RSS路由体系者优先;
12.有RAG(检索增强生成)开发经验,了解向量检索与语义分析逻辑;
13.有政策采集治理经验优先;
14.了解Java应用开发架构,能与后端研发团队无缝对接采集接口。

工作地点

工作地点
济南历城区山东亿云信息技术公司
位置图标
完善简历

公司信息

山东亿云信息技术有限公司

天使轮 · 100-299人 · 计算机软件、IT服务、互联网、计算机硬件 已审核 已审核

20 个在招职位

公司介绍

山东亿云信息技术有限公司(简称:亿云信息)创始于2011年,是山东省科学院孵化的国家级高新技术企业,2019年成为山科控股集团旗下新一代信息技术产业板块领军企业和科技创新示范企业。公司专注于云计算、大数据、人工智能技术的应用研究和行业业务深耕,倾力打造安全自主可控的数字中台产品,为政府和行业客户提供多场景的信息化、数字化和智能化服务,一站式满足客户从规划设计、研发交付到运维运营的全过程需求。 亿云信息拥有八个省级创新平台,十余项行业领先资质,获得“国家工信部百家大数据优秀案例”等十多项国家级品牌荣誉,拥有百余项发明专利和软件著作权。公司先后入选山东省大数据骨干企业、山东省首批瞪羚企业、山东省重点软件企业、山东省优秀软件企业、山东省专精特新企业、山东省首批现代优势产业集群+人工智能试点示范企业。 亿云信息基于“云+数”发展战略,历经十余年的沉淀与发展,在云服务、数字政府、人才科创、智慧农业、智慧工信、智慧商务、企业数字化转型及数字金融等领域已有近千个实践案例,累计创造经济效益达数十亿元。同时,公司作为山东省电子政务云和企业上云的重要支撑平台、山东省政务信息化建设及运营的重要服务单位,全面助力山东及多个省份数字政府、数字社会、数字经济建设及发展。 Ø 企业愿景:国内领先的云计算和大数据服务提供商 Ø 核心价值观:务实、高效、开放、创新 Ø 企业口号:创新亿万平台,云动世界数据 Ø 企业使命:以高效推动中国信息化行业发展为己任

工商信息

企业名称 山东亿云信息技术有限公司
企业类型 其他有限责任公司
法人代表 吴士伟
经营状态 存续
成立时间 2011-09-14
注册资本 4900.02万元
查看全部信息

认证资质

营业执照信息
最新招聘
热门城市
热门职位
热门公司