ag真人注册-AG线上真人游戏

AG线上真人游戏
2018级硕士生韩帅在人工智能领域重要国际期刊Knowledge-Based Systems上发表论文
科研办 发布时间:2021-02-24 16:36  

ag真人注册吕帅副教授等的论文“Regularly updated deterministic policy gradient algorithm被人工智能领域重要国际期刊Knowledge-Based Systems(中科院一区)录用。论文第一作者为吕帅副教授指导的2018级硕士生韩帅,通讯作者为吕帅副教授,其他作者为2017级博士生周文博、2019级硕士生于佳玉。

    深度确定性策略梯度算法DDPG是最著名的强化学习方法之一,这类方法在实际应用中通常效率低下且不稳定,且其对Q值估计的偏差和方差有时会难于控制。本文针对上述问题提出了一种定期更新的确定性策略梯度算法RUDregularly updated deterministic policy gradient)。本文从理论上证明了RUD的学习过程使RUD可以比传统方法更好地利用经验池中的新数据。此外,RUD中Q值的低方差更适合于当前流行的Clipped Double Q-learning策略。本文设计了在Mujoco环境下的对比实验、消融实验,以及其它的分析实验。实验结果验证了RUD的有效性和优越性。


ag真人注册-AG线上真人游戏 版权所有 © 2017

地址:吉林省长春市朝阳区前进大街2699号吉林大学前卫南区计算机楼 邮编:130012