岗位职责:
1、大模型业务化微调与训练
①面向具体业务场景,完成大模型的指令微调(SFT)、偏好对齐训练(如GRPO/RL相关方法)与持续迭代;
②负责训练数据体系建设:数据清洗、标注规范、指令构造、偏好数据构造、训练集/评测集划分与版本管理;
③设计并优化训练策略与超参(LoRA/QLoRA、全参微调、混合训练等),提升效果与训练效率;
④负责训练稳定性与成本优化:显存优化、吞吐优化、分布式训练、故障排查与恢复。
2、大模型智能体(Agent)开发与落地
①设计并实现面向业务的智能体能力:工具调用(Function Calling/Tool Use)、多步推理、任务分解、工作流编排;
②构建/优化RAG、记忆(Memory)、规划(Planning)、反思(Reflection)、多智能体协作等模块,提升可控性与可靠性;
③将智能体能力与线上系统集成,支持可观测、可回放、可评估与可迭代。
评测与工程化交付。
3、建立覆盖业务指标与通用能力的评测体系(自动评测+人工评测),输出可量化的迭代报告;
4、搭建训练/推理/评测的工程化流水线(CI/CD、实验管理、模型版本管理、灰度与回滚);
5、与产品、业务、后端/平台团队协作,推动从PoC到规模化落地。
任职要求:
1、计算机/数学/统计/相关专业本科及以上,3年以上算法或NLP/深度学习相关经验(优秀可放宽);
2、扎实的机器学习/深度学习基础,熟悉Transformer、LLM训练范式与常见对齐思路;
3、熟练使用Python,掌握PyTorch及常用训练框架(HuggingFace Transformers、DeepSpeed、FSDP、Megatron等其一或多个)。
4、有SFT/偏好对齐(如GRPO、PPO、DPO、ORPO等)落地经验,能独立完成从数据到训练到评测的闭环;
5、熟悉LoRA/QLoRA、量化(AWQ/GPTQ等)、混合精度训练、梯度累积、显存/通信优化;
6、能针对业务问题设计有效的数据策略与prompt/指令体系,具备较强问题定位能力;
7、熟悉Agent相关框架或模式(LangGraph/LangChain、OpenAI function calling范式、ReAct等),有工具调用与工作流编排实践;
8、具备良好工程素养,能将模型能力稳定上线并持续迭代(监控、日志、回放、A/B实验等)。
加分项:
有大规模分布式训练实战经验(多机多卡、RDMA/NCCL调优、训练故障处理);
在中文对话、知识问答、内容生成、客服/销售、代码生成、检索增强等场景有成功案例;
熟悉高质量数据合成、自动标注、对抗数据、蒸馏(KD)、模型压缩与推理加速(vLLM/TensorRT-LLM);
有论文/开源贡献/竞赛成绩,或主导过LLM平台化建设。