职位描述
1、构建多维度数据生产链路,保障数据生产稳定落地及质量、数量达标。
2、制定标注规则与质检机制(如抽检、交叉验证),将质量指标接入数据管道,持续优化数据查询与复用。
3、基于 LLM、深度学习算法及 Agent 架构,开发数据生产提效产品,提升标注及数据 POC 效率。
4、与算法、研发、运维协作,开发简易后端接口与工具,沉淀最佳实践,提升团队效率。
职位要求
1、本科及以上,计算机或数据相关专业;理解大模型 API 调用机制、数据处理流程、NLP 基础及大模型后训练流程与数据要求,了解大模型算法及 tools、MCP、skills 等实际调用方式。
2、熟悉大模型基础知识,能够编写提示词,了解 SFT、RL 等训练流程,具备业务拆解能力,能将复杂需求拆解为细分场景。
3、具备数据生产链路、数据处理或数据工程相关经验,能够独立完成数据处理脚本开发,具备数据质量评估、问题定位与排查能力。
4、1-3 年 Python 开发经验,熟练 Python,熟悉 Pandas、NumPy、requests、ThreadPoolExecutor 等常用库;具备基础后端开发能力,熟悉 FastAPI、Flask、Spring Boot 至少一种,有 LLM 应用开发、数据处理、API 集成经验者优先。
5、能适应业务快速变化,善于沟通协作,学习力强,对 AI 有热情,能输出清晰技术文档;了解前端基础(Vue/React/HTML/CSS/JS)及常见数据库(MySQL/PostgreSQL/MongoDB)、具备数据建模与性能优化意识者优先。
加分项
1、参与过企业级模型训练流程,具备数据 pipeline 搭建经验。
2、有 LLM 标注、增强、合成、工程化,或数据仓库、采集管道、数据工具相关经验。
3、有独立搭建完整 Agent 项目经验。"