更新于 7月18日

强化学习(决策智能方向)

2.5-5万
  • 北京石景山区
  • 3-5年
  • 硕士
  • 全职
  • 招1人

职位描述

人工智能
【岗位职责】
1、算法创新与理论突破-设计面向复杂动态环境的强化学习算法,解决样本效率低、探索-利用权衡、稀疏奖励多目标优化等关键问题。探索基于模型(Model-based RL)、分层强化学习(HRL)、元强化学习逆强化学习(IRL)等前沿方(Meta-RL)、向的技术融合与改进。
2、结合大模型技术,研发语言驱动强化学习(Language-guided RL)、世界模型(World Models)等跨模态决策框架。大规模强化学习系统构建-构建分布式强化学习训练框架,优化并行采样、离线强化学习(Offline RL)与在线学习的混合训练机制。开发高效仿真环境与智能体交互接口,支持高保真物理模拟、多智能体协同训练及超长序列决策任务。
3、了解自适应奖励函数与课程学习(Curriculum Learning)策略,加速智能体在复杂场景中的能力进化。
4、前沿探索与跨领域研究-研究多智能体强化学习(MARL)中的合作与竞争机制,解决非稳态环境、信用分配、通信效率等挑战。探索强化学习与神经符号系统(Neuro-symbolic Al)、因果推理的结合提升决策的可解释性与鲁棒性。
5、推动强化学习(RL)在大规模、高维、稀疏奖励环境中的技术落地,构建具备自我进化能力的智能系统,赋能自主协同决策等核心业务场景。
【任职要求】
1、教育背景:计算机科学、数学、控制理论、自动化、运筹学或相关领域硕/博士学历。
2、技术能力:熟悉强化学习经典算法(如DQN、PPOSAC、TD3)及最新进展,Gym、MuJoCo、ISSAC Sim等工具链。
3、对复杂系统建模与决策优化有强烈热情。
【加分项】
1、具备大规模分布式训练经验(Ray、RLlib等框架),熟悉离线强化学习、模仿学习与仿真到真实(Sim2Real)迁移技术。
2、在算法层有深度实践:稀疏奖励优化、多智能体协同、元学习与快速适应。
3、发表过RL相关论文,或主导过开源RL项目者优先。
4、熟悉PyTorch深度学习技术框架,具备从算法设计到工程落地的全流程能力。

工作地点

北京石景山区双园路

职位发布者

黄珊/人事经理

当前在线
立即沟通
中国电子科技集团有限公司电子科学研究院
中国电科电子科学研究院(以下简称电科院)1984年正式成立,国家级科研机构。自诞生之日起,先后承担了一大批国家重大战略工程总体任务,具备良好的创新引领力、人才凝聚力和行业影响力。在网络信息体系建设、信息技术发展战略研究、综合电子信息系统和预警指挥机研制等领域取得了丰硕成果,为国防现代化建设和国民经济发展做出了突出贡献。伟大的事业造就伟大的队伍、锻造伟大的精神,在近四十年强军报国的奋斗征程中,形成了以我国综合电子信息系统开拓者和奠基人童志鹏院士、“中国预警机之父”王小谟院士、空警2000总设计师陆军院士为代表的科学家队伍,锤炼凝结出“自力更生、协同作战、顽强拼搏、创新图强”的预警机精神,是电科院不断奋进向前的最宝贵财富和最深厚文化滋养。建院以来,先后荣获国家最高科学技术奖、国家科技进步特等奖、国家科技进步一等奖、国防科技进步特等奖等国家和省部级科学技术进步奖共110余项。强基固本,转变转型。站在新的发展关键节点上,电科院聚焦总体能力提升,奋力推进以“三基”工程为龙头的业务体系发展,广纳天下英才、诚邀各路贤能,共为民族伟业、共铸大国重器,在强军报国的伟大事业中书写人生华章、实现人生理想!
公司主页