更新于 1月14日

大模型数据清洗工程师

1.3-1.4万
  • 西安雁塔区
  • 1-3年
  • 本科
  • 全职
  • 招1人

职位描述

Python人工智能
工作内容:
1. 负责大模型训练所需数据的获取与生产,覆盖文本、音频、视频等多模态数据,包含数据挖掘、批量下载、解析、清洗、去重、结构化与版本管理;
2. 搭建并维护多模态数据处理流水线,支持大规模数据的自动化清洗、质量校验、统计分析与持续迭代;
3. 结合大模型能力与规则/模型手段,参与数据筛选、数据增强、数据挖掘及人工反馈闭环,持续提升数据质量与训练价值;
4. 与算法、标注、平台工程团队协作,保障大模型训练、评测与业务交付的数据供给稳定高效;
5. 推进数据生产链路的工程化建设,优化数据流转与处理效率,构建可复用、可扩展的数据生产体系。
岗位要求:
1. 工程能力扎实,能够快速上手数据类工作,具备良好的代码习惯和复杂问题拆解能力;
2. 熟练使用至少一种编程语言(Python / Go / Shell 等),具备大规模数据处理与自动化脚本经验;
3. 有实际的数据获取、下载、清洗、格式转换、质量校验经验,能独立完成从原始数据到可用训练数据的全流程;
4. 了解大模型训练数据形态(如预训练、SFT、评测数据),或有多模态数据处理经验者优先;
5. 认可数据是大模型核心竞争力,对数据质量、规模和效率敏感,愿意长期深耕数据工程方向。
加分项(Nice to Have)
 有爬虫、批量下载、内容解析或反爬应对经验;
 有音视频处理、文本清洗、内容过滤、去重等经验;
 熟悉 Linux 环境及多进程 / 分布式 / 批处理任务;
 参与过大模型数据生产、清洗或评测体系建设。

工作地点

雁塔区西安环普国际科技园

入职公司信息

  • 入职公司: 百度在线网络技术(北京)有限公司
  • 公司地址: 北京海淀区北京市海淀区上地十街10号百度大厦
  • 公司人数: 1000-9999人

认证资质

  • 劳务派遣经营许可认证

    劳务派遣经营许可证是由国家人力资源与社会保障相关部门颁发,代表人才经纪人所在企业可以合法开展劳务派遣相关业务的资质证件。展示该标签代表该企业发布此职位时已上传《劳务派遣许可证》并经由平台审验通过。

职位发布者

王女士/hr

刚刚活跃
立即沟通
公司Logo首聘(北京)科技有限公司公司标签
首聘(北京)科技有限公司成立于2015年08月31日,注册地位于北京市朝阳区霄云路40号院1号楼12层。经营范围包括一般项目:技术服务、技术开发、技术咨询、技术交流、技术转让、技术推广;企业管理咨询;社会经济咨询服务;软件开发;市场调查(不含涉外调查);计算机系统服务;电子产品销售;通讯设备销售;计算机软硬件及辅助设备批发;计算机软硬件及辅助设备零售;人力资源服务(不含职业中介活动、劳务派遣服务);外卖递送服务;物业管理;园林绿化工程施工;城市绿化管理;电子、机械设备维护(不含特种设备);电气设备修理;通用设备修理;专用设备修理;停车场服务。(除依法须经批准的项目外,凭营业执照依法自主开展经营活动)许可项目:建筑劳务分包;第二类增值电信业务;测绘服务;劳务派遣服务;食品销售。(依法须经批准的项目,经相关部门批准后方可开展经营活动,具体经营项目以相关部门批准文件或许可证件为准)(不得从事国家和本市产业政策禁止和限制类项目的经营活动。)首聘(北京)科技有限公司对外投资12家公司,具有17处分支机构
公司主页