400-885-9898

该职位已失效，看看其他机会吧

强化学习算法工程师(J10815)

3-4万

北京丰台区
5-10年
本科
全职
招2人

查看更多相似职位

雇员点评标签

工作环境好
同事很nice
氛围活跃
团队执行强
准时发工资
人际关系好

职位描述

深度强化学习DRL智能体算法MARL模仿学习PyTorchTensorFlowPythonDEEPSPEEDPPO多智能体协作框架强化学习实战经验

岗位职责:

‌1、强化学习算法研发‌：

开发基于深度强化学习（DRL）的智能体算法，提升复杂场景（数字人分身、问诊等）中的决策能力，优化训练效率与模型泛化性‌；

研究多智能体强化学习（MARL）、模仿学习（Imitation Learning）等技术，推动AI在真实环境中的落地应用‌；

参与后训练阶段的Scaling Law研究，包括奖励模型设计、强化学习训练及推理优化‌。

2、‌DeepResearcher框架开发‌：

探索真实网络环境下强化学习训练框架的优化，支持分布式训练与高效在线推理‌；

结合开源生态（如DeepSpeed、Megatron），构建可扩展的AI研究者模型基础设施‌。

3、‌算法工程化与部署‌：

负责强化学习模型的训练加速与推理优化，应用量化、蒸馏等技术实现工业级部署‌；

与交付团队协作，适配昇腾芯片等AI加速硬件，提升模型计算效率‌；

4、完成领导交办的相关工作。

任职要求:

1、学历与专业‌：计算机、人工智能、自动化等相关专业本科及以上学历‌；

‌2、技术能力‌：

熟悉主流强化学习算法（如PPO、REINFORCE、RLOO）及多智能体协作框架‌；

掌握PyTorch/TensorFlow框架，具备Python/C++开发能力，熟悉分布式训练工具（如DeepSpeed）‌；

‌3、经验背景‌：

有强化学习项目实战经验，熟悉算法从研发到落地的全流程‌；

在顶会（ICML、NeurIPS、AAAI等）发表相关论文或参与开源项目（如Stable Baselines3）者优先‌。

‌4、加分项‌：

具备真实环境强化学习训练经验（如游戏NPC智能化、机器人控制）‌；

熟悉大语言模型（LLM）的强化学习对齐技术（如RLHF）‌；

了解AI基础设施优化（如算子编译、存储调度）或芯片级加速开发‌。

查看全部

工作地点

北京丰台区汉威国际广场4区3号楼

认证资质

营业执照信息

完善一份简历
1736万+企业在线搜索，780万+海量职位精准推荐

相似职位

视觉算法工程师2-3万·13薪
北京 - 海淀
一眸科技(北京)有限公司
软件工程师7000-8000元
北京 - 东城
国投融合科技股份有限公司
深度学习算法工程师2.5-3.5万·14薪
北京 - 海淀
中关村科学城城市大脑股份有限公司
Python开发工程师1-1.5万
北京 - 朝阳
北京世纪互联软件开发有限公司
【校园招聘】人工智能研发工程师1-1.5万
北京 - 丰台
北京国电通网络技术有限公司
深度强化学习算法工程师2.5-4万
北京 - 昌平
北京金钢科技有限公司

查看更多相似职位

职位发布者

黄春霞/人事经理

刚刚活跃

立即沟通

南威软件股份有限公司

南威软件集团全球总部设立在北京，是福建省首家在上海主板上市的网信企业（股票代码：603636）、中国软件行业协会副理事长单位、福建省软件行业协会会长单位。公司将人工智能作为整体战略，以人工智能重构数字政府、公共安全、社会治理等主营业务，发展人工智能智慧产业，构建人工智能硬核能力，形成人工智能产业链，致力于推动全球数字政府、公共安全、社会治理和智慧产业的创新发展。南威软件成立于2002年，拥有近百家全资、控股、参股公司，其中包括深圳太极、人大金仓、四方伟业、安巽科技、北京友虹、福建万福等行业标杆企业，是国家规划布局内重点软件企业、国家数字政府建设联盟常任副理事长单位、互联网+政务服务电子证照国家标准制定的组长单位、国家电子文件管理推进联盟副理事长单位、国家智慧城市标准化专题组组长单位，服务于政府数字化转型、助力国家治理体系和治理能力现代化。公司拥有全面的行业顶级资质，包括CCRC信息安全服务资质一级（安全集成一级、安全运维一级、软件安全开发一级）、涉密信息系统集成甲级、国家建筑智能化系统设计专项甲级、国家电子与智能化工程专业承包一级、国家安防工程企业设计施工维护能力一级、ITSS运维服务能力成熟度一级、CPMM软件项目管理能力成熟度一级、软件服务商交付能力一级、IT数智化服务能力评估人工智能服务能力一级、IT数智化服务能力评估大模型服务能力一级、国家信息系统建设和服务能力评估四级（最高级）、CMMI国际软件成熟度五级（国际最高级），并取得了DCMM数据管理能力成熟度三级、武器装备科研生产单位保密资格、国军标质量管理体系等资质，是行业内资质最高最全的企业之一。

公司主页

关于我们: 公司介绍; 联系我们; 诚聘英才

产品与服务: 人才招聘; 企业招聘

使用与帮助: 账号注销; 意见反馈; 发票制度; 防骗指南; 法律协议; 资质公示

智联招聘更懂你的价值

智联app小程序官方微信企业版APP

京ICP备12025925号京ICP证010207号

京公网安备 11010502059392号人力资源许可证:1101051996081号

网上有害信息举报专区违法不良信息举报电话:400-885-9898 关爱未成年举报热线:400-885-9898-3

朝阳区人力资源与社会保障局监督电话

网络110报警服务电子营业执照