职位描述:
主要承接大模型数据生产、大模型评估及运营相关的业务,与研发、产品等团队紧密合作,在预训练、数据监督微调、模型强化学习、模型能力评估、产品运营等大模型全链路数据环节,共同推动模型能力持续提升与应用。
主要工作内容包括:
1、构建并维护高效的3D数据Pipeline,负责大规模3D数据的清洗、去噪与格式转换(OBJ/GLB/FBX/PLY),编写鲁棒的批处理脚本与调度任务,确保训练数据稳定可复用。 将 Agent 与自动化能力落地到生产链路,设计并实现基于 Function Calling / Workflow 的自动化工作流,让大模型/Agent 自动完成标注、质量检测与异常修复,显著减少人工成本并提升处理速度。
2、支撑模型训练与数据质量闭环,负责训练数据版本管理、质量监控与效果评估;参与微调与数据增强实验,将优质数据转化为模型性能提升。
职位要求:
1、本科及以上,至少一年数据工程工作经验,计算机、数据科学、数字媒体等相关专业优先 ;
2、具备扎实的 Python 编程习惯与工程能力 参与过数据标注、模型评测、数据平台建设者优先 了解 3D 数据结构,有数字媒体技术/建模/渲染基础者优先 ;
3、技术硬性要求:熟练使用 Python 进行数据处理、脚本开发与自动化任务 熟悉常见 3D 数据格式(OBJ / PLY / GLB / FBX 等)的结构 ;
3、熟悉常用数据处理工具链:NumPy、Pandas、PyTorch、FFmpeg 等 ;
4、具备 Agent / Workflow / Function Calling 构建或自动化流程工程经验 扎实的工程能力,自驱、能解决真实数据落地中的复杂问题 加分项 ;
5、使用过 Blender等3D软件的 Python API(自动化导入/导出/清洗/渲染 具备基础的模型微调、LoRA 训练经验(了解即可) 参与过数据标注、模型评测体系、数据平台等相关项目。