该职位已失效,看看其他机会吧

大数据处理工程师(大模型方向)

1.1-1.4万
  • 西安雁塔区
  • 1-3年
  • 本科
  • 全职
  • 招6人

雇员点评标签

  • 工作环境好
  • 同事很nice
  • 氛围活跃
  • 人际关系好
  • 免费班车
  • 管理人性化
  • 团队执行强
  • 交通便利

职位描述

数据挖掘Python云计算/大数据
本岗位顶薪13500元,工作时间10-7,周末双休,节假日休息~·~
工作内容:
1. 负责大模型训练所需数据的获取与生产,覆盖文本、音频、视频等多模态数据,包含数据挖掘、批量下载、解析、清洗、去重、结构化与版本管理;
2. 搭建并维护多模态数据处理流水线,支持大规模数据的自动化清洗、质量校验、统计分析与持续迭代;
3. 结合大模型能力与规则/模型手段,参与数据筛选、数据增强、数据挖掘及人工反馈闭环,持续提升数据质量与训练价值;
4. 与算法、标注、平台工程团队协作,保障大模型训练、评测与业务交付的数据供给稳定高效;
5. 推进数据生产链路的工程化建设,优化数据流转与处理效率,构建可复用、可扩展的数据生产体系。
岗位要求:
1. 工程能力扎实,能够快速上手数据类工作,具备良好的代码习惯和复杂问题拆解能力;
2. 熟练使用至少一种编程语言(Python / Go / Shell 等),具备大规模数据处理与自动化脚本经验;
3. 有实际的数据获取、下载、清洗、格式转换、质量校验经验,能独立完成从原始数据到可用训练数据的全流程;
4. 了解大模型训练数据形态(如预训练、SFT、评测数据),或有多模态数据处理经验者优先;
5. 认可数据是大模型核心竞争力,对数据质量、规模和效率敏感,愿意长期深耕数据工程方向。
加分项(Nice to Have)
 有爬虫、批量下载、内容解析或反爬应对经验;
 有音视频处理、文本清洗、内容过滤、去重等经验;
 熟悉 Linux 环境及多进程 / 分布式 / 批处理任务;
 参与过大模型数据生产、清洗或评测体系建设。
硬性条件:
1、本科及以上学历计算机相关专业
2、2年及以上工作经验
3、语言三选一 Python / Go / Shell
查看全部

工作地点

雁塔区西安环普国际科技园

职位发布者

张女士/招聘HR

三日内活跃
立即沟通
公司Logo上海微创软件股份有限公司
上海微创软件股份有限公司2002年由微软与上海市政府共同创办,是微软在华投资的第一家合资公司。微创始终秉承高标准的服务品质与“成就客户”的服务理念,在全球设有20余处交付中心,分布在中国、美国、日本、澳大利亚,凭借在汽车、保险、高科技、金融、互联网等行业的深厚积累和丰富经验,与2500余家企业与政府客户达成了长期、稳定、友好的合作。
公司主页