岗位职责:
1、强化学习算法研发:
开发基于深度强化学习(DRL)的智能体算法,提升复杂场景(数字人分身、问诊等)中的决策能力,优化训练效率与模型泛化性;
研究多智能体强化学习(MARL)、模仿学习(Imitation Learning)等技术,推动AI在真实环境中的落地应用;
参与后训练阶段的Scaling Law研究,包括奖励模型设计、强化学习训练及推理优化。
2、DeepResearcher框架开发:
探索真实网络环境下强化学习训练框架的优化,支持分布式训练与高效在线推理;
结合开源生态(如DeepSpeed、Megatron),构建可扩展的AI研究者模型基础设施。
3、算法工程化与部署:
负责强化学习模型的训练加速与推理优化,应用量化、蒸馏等技术实现工业级部署;
与交付团队协作,适配昇腾芯片等AI加速硬件,提升模型计算效率;
4、完成领导交办的相关工作。
任职要求:
1、学历与专业:计算机、人工智能、自动化等相关专业本科及以上学历;
2、技术能力:
熟悉主流强化学习算法(如PPO、REINFORCE、RLOO)及多智能体协作框架;
掌握PyTorch/TensorFlow框架,具备Python/C++开发能力,熟悉分布式训练工具(如DeepSpeed);
3、经验背景:
有强化学习项目实战经验,熟悉算法从研发到落地的全流程;
在顶会(ICML、NeurIPS、AAAI等)发表相关论文或参与开源项目(如Stable Baselines3)者优先。
4、加分项:
具备真实环境强化学习训练经验(如游戏NPC智能化、机器人控制);
熟悉大语言模型(LLM)的强化学习对齐技术(如RLHF);
了解AI基础设施优化(如算子编译、存储调度)或芯片级加速开发。