更新时间 1月23日

工业语料/数据工程师

2-4万
  • 上海 徐汇区
  • 3-5年
  • 硕士
  • 全职
  • 招1人

职位描述

数据开发
职位信息
负责领导并构建一个覆盖全球标准、技术文献、专利、教材、政策法规及行业数据的超大规模、多语言工业知识语料库。您将定义数据标准,为下一代工业AI大模型和知识图谱提供坚实、高质量的数据基石。这是一个极具挑战性且对公司核心数据战略至关重要的岗位。
核心职责
1.语料规划:
o根据业务目标(如训练垂直行业大模型、构建知识库),制定涵盖所有给定数据类别(标准、文献、专利、教材、政策、数据等)的全面语料库建设路线图与技术架构。
o设计支持多源(PDF、文本、图像、视频、数据库)、多语言(中/英)、多模态数据的高效处理与存储方案。
o建立并持续优化语料数据的质量标准、分类体系和元数据规范。
2.数据采集与获取:
o规划并实施从公开数据库(如各国专利局、IEEE Xplore、NIST、各标准组织)、学术出版商、行业协会、商业数据提供商等渠道获取数据的技术方案。
o负责与数据供应商谈判、采购合法合规的数据授权,管理数据使用许可。
o开发或管理网络爬虫与API集成工具,安全、合规、高效地获取数据。
3.数据处理与加工流水线构建:
o主导搭建自动化、工业级的语料数据处理流水线,覆盖以下关键环节:
文本提取与解析:精通处理海量PDF(扫描版/数字版)、Word等格式文档,应用OCR、版面分析等技术实现高精度文本与结构化信息(如标题、作者、图表标题)提取。
多语言处理:实施专业领域机器翻译、术语对齐和语言质量控制流程。
数据清洗与标准化:设计并应用规则与模型,对文本进行去重、格式化、错误纠正、专业术语归一化。
信息结构化:针对专利、标准、论文等特定类型数据,提取关键字段(如IPC分类号、标准号、DOI、摘要、权利要求、章节标题等)。
非结构化数据标注:为图像(如缺陷检测、CAD图纸)、视频(如操作过程)等数据集设计并管理标注方案,确保高质量标注结果。
4.质量管理与评估:
o建立贯穿全流程的数据质量监控与评估体系,定义核心质量指标(如完整性、准确性、一致性、时效性)。
o定期审核语料库质量,分析问题根源,持续优化处理流程与算法模型。
5.跨部门协作与项目管理:
o与AI算法团队、产品经理、业务专家紧密合作,深刻理解下游应用需求,确保语料库能有效支持模型训练与产品开发。
o管理语料库建设项目,制定详细计划,分配任务,跟踪进度,控制风险,确保项目按时、按质、按量交付。
任职要求
1.必备条件:
o学历与经验:计算机科学、软件工程、数据科学或相关理工科专业硕士及以上学历,5年以上大规模数据工程、知识图谱构建或相关领域经验。有工业领域(如高端制造、能源、自动化)项目背景者优先。
2.优先考虑:
o领域知识:对您所列出的至少2-3个工业领域(如机械、电气、自动化、材料、能源)有基础知识或强烈学习兴趣。熟悉ISO、IEC、ASTM等标准体系者尤佳。
o语言能力:具备优秀的英文技术文献阅读能力。

工作地点

工作地点
徐汇区上海科学智能研究院
位置图标
完善简历

公司信息

壹珈智晟(上海)科技有限公司

未融资 · 20-99人 · 人工智能 已审核 已审核

15 个在招职位

公司介绍

壹珈智晟(上海)科技有限公司成立于2025年,坐落于模速空间,是一家聚焦于“AI+化工”垂直领域的智能原生企业。壹珈智晟以“让全球化工都用上统一智能体”为使命,致力于融合智能化工数据语料管理、大模型智能体与具身智能等前沿技术,推动化工行业从“经验驱动”向“智能驱动”全面转型,重塑其在研发、安全、生产与运维等全流程的效率与价值,为客户提供全化工业态的“AI+化工”系列产品与解决方案。秉承“化繁为简、长期主义、合作共赢”的核心理念,壹珈智晟专注于化工行业的数字化与智能化升级,助力化工行业实现绿色、高质量与可持续发展。战略协同壹珈智晟构建并自研的“1+N+1”战略方向,3+2+1产品体系打通化工AI全价值链以一体化“化工智脑”为核心,协同N类面向化工场景的AI超级员工(Agent),以及一个集工具立方体、智能化工数据语料管理平台、智能模型训练平台和防爆具身智能群体于一体的AI化工智能基座,从而形成覆盖数据采集、数据治理、事件认知、研判决策到执行的完整智能闭环,再创新质生产力。壹珈智晟的两大核心竞争壁垒数据飞轮:依托近三十年化工行业knowhow知识积累,构建了丰富多样的专业化工数据语料库。通过自研的智能化工数据语料管理平台与智能模型训练平台,持续汇聚并活化化工全生命周期数据,形成不断自我增强的数据闭环。技术飞轮:基于“万化·契道”多模态化工大模型,实现行业知识、设备数据与AI算法的深度融合,构建持续进化的技术体系,系统性地应对化工企业在系统割裂、研发周期长、安全隐患多、成本高昂等核心痛点,推动全流程智能化升级。生态共建:携手龙头企业共推化工AI商业化作为创新驱动的科技企业,壹珈智晟服务于多家国企、央企,落地多项化工AI产品。同时,壹珈智晟与上海科学智能研究院联合成立“AI+化工联合实验室”,并与库帕思科技、九章云极科技等业界领先企业达成战略合作,携手共建开放协同的智能化的化工产业全生态。坚定做AI商业价值赋能者和应用创新者壹珈智晟以“打通化工AI全价值链”为战略核心,矢志成为全球首家覆盖AI+化工全业态的综合服务商,为化工行业智能化变革及第四次工业革命的推进贡献力量。

工商信息

企业名称 壹珈智晟(上海)科技有限公司
企业类型 有限责任公司(自然人投资或控股)
法人代表 曹婕
经营状态 存续
成立时间 2025-04-30
注册资本 1000万元
查看全部信息

认证资质

营业执照信息

相似职位

查看更多

大数据开发工程师

1-1.5万 软通动力信息技术(集团)股份有限公司
本科 3-5年 Flink Spark Java Python Sql

数据开发工程师(SH)

1.6-2万 上海彧然信息技术有限公司
本科 3-5年 数据治理 Sql Elasticsearch MYSQL性能调优 NOSQL数据库应用 OLAP报表开发

数据开发工程师

1.3-1.5万 中科软科技股份有限公司
本科 3-5年 数仓开发 Hive Spark ETL开发 ETL 数据仓库 数据库开发 Sql Shell Hadoop Kafka Python

数据开发工程师

2-3万·15薪 长春金赛药业有限责任公司
本科 3-5年 数据治理 ETL 数据仓库 Sql Python Hadoop
最新招聘
热门城市
热门职位
热门公司