该职位已失效,看看其他机会吧

强化学习算法工程师(J10815)

3-4万
  • 北京丰台区
  • 5-10年
  • 本科
  • 全职
  • 招2人

雇员点评标签

  • 工作环境好
  • 同事很nice
  • 氛围活跃
  • 团队执行强
  • 准时发工资
  • 人际关系好

职位描述

深度强化学习DRL智能体算法MARL模仿学习PyTorchTensorFlowPythonDEEPSPEEDPPO多智能体协作框架强化学习实战经验
岗位职责:
‌1、强化学习算法研发‌:
开发基于深度强化学习(DRL)的智能体算法,提升复杂场景(数字人分身、问诊等)中的决策能力,优化训练效率与模型泛化性‌;
研究多智能体强化学习(MARL)、模仿学习(Imitation Learning)等技术,推动AI在真实环境中的落地应用‌;
参与后训练阶段的Scaling Law研究,包括奖励模型设计、强化学习训练及推理优化‌。
2、‌DeepResearcher框架开发‌:
探索真实网络环境下强化学习训练框架的优化,支持分布式训练与高效在线推理‌;
结合开源生态(如DeepSpeed、Megatron),构建可扩展的AI研究者模型基础设施‌。
3、‌算法工程化与部署‌:
负责强化学习模型的训练加速与推理优化,应用量化、蒸馏等技术实现工业级部署‌;
与交付团队协作,适配昇腾芯片等AI加速硬件,提升模型计算效率‌;
4、完成领导交办的相关工作。
任职要求:
1、学历与专业‌:计算机、人工智能、自动化等相关专业本科及以上学历‌;
‌2、技术能力‌:
熟悉主流强化学习算法(如PPO、REINFORCE、RLOO)及多智能体协作框架‌;
掌握PyTorch/TensorFlow框架,具备Python/C++开发能力,熟悉分布式训练工具(如DeepSpeed)‌;
‌3、经验背景‌:
有强化学习项目实战经验,熟悉算法从研发到落地的全流程‌;
在顶会(ICML、NeurIPS、AAAI等)发表相关论文或参与开源项目(如Stable Baselines3)者优先‌。
‌4、加分项‌:
具备真实环境强化学习训练经验(如游戏NPC智能化、机器人控制)‌;
熟悉大语言模型(LLM)的强化学习对齐技术(如RLHF)‌;
了解AI基础设施优化(如算子编译、存储调度)或芯片级加速开发‌。
查看全部

工作地点

北京丰台区汉威国际广场4区3号楼

认证资质

营业执照信息

职位发布者

黄春霞/人事经理

刚刚活跃
立即沟通
公司Logo南威软件股份有限公司
南威软件集团全球总部设立在北京,是福建省首家在上海主板上市的网信企业(股票代码:603636)、中国软件行业协会副理事长单位、福建省软件行业协会会长单位。公司将人工智能作为整体战略,以人工智能重构数字政府、公共安全、社会治理等主营业务,发展人工智能智慧产业,构建人工智能硬核能力,形成人工智能产业链,致力于推动全球数字政府、公共安全、社会治理和智慧产业的创新发展。南威软件成立于2002年,拥有近百家全资、控股、参股公司,其中包括深圳太极、人大金仓、四方伟业、安巽科技、北京友虹、福建万福等行业标杆企业,是国家规划布局内重点软件企业、国家数字政府建设联盟常任副理事长单位、互联网+政务服务电子证照国家标准制定的组长单位、国家电子文件管理推进联盟副理事长单位、国家智慧城市标准化专题组组长单位,服务于政府数字化转型、助力国家治理体系和治理能力现代化。公司拥有全面的行业顶级资质,包括CCRC信息安全服务资质一级(安全集成一级、安全运维一级、软件安全开发一级)、涉密信息系统集成甲级、国家建筑智能化系统设计专项甲级、国家电子与智能化工程专业承包一级、国家安防工程企业设计施工维护能力一级、ITSS运维服务能力成熟度一级、CPMM软件项目管理能力成熟度一级、软件服务商交付能力一级、IT数智化服务能力评估人工智能服务能力一级、IT数智化服务能力评估大模型服务能力一级、国家信息系统建设和服务能力评估四级(最高级)、CMMI国际软件成熟度五级(国际最高级),并取得了DCMM数据管理能力成熟度三级、武器装备科研生产单位保密资格、国军标质量管理体系等资质,是行业内资质最高最全的企业之一。
公司主页