您当前的位置:首页 > 详细浏览

文献详情

一种深度Q网络的改进算法

提交时间: 2018-10-11
作者: 夏宗涛 1 ; 秦进 1 ;
作者单位: 1.贵州大学 计算机科学与技术学院;

内容摘要

深度Q网络存在严重的过估计问题,导致智能体寻找最优策略的能力下降。为了缓解深度Q网络中存在的过估计问题,提出一个更正函数用于对深度Q网络中的评价函数进行改进,当选择的动作为最优动作时更正函数为1,不对当前状态—动作值进行修改,当选择的动作不是最优动作时更正函数小于1,缩小当前状态—动作值,从而使得最优状态—动作值与非最优状态—动作值的差异增大,减少过估计问题的影响。实验证明改进的算法在Playing Atari 2600视频游戏以及OpenAI Gym中取得了更好的性能。说明改进的算法比深度Q网络寻得了更优的策略。
点击下载全文 评论 来自合作期刊:《计算机应用研究》 点击量:67 下载量:21
期刊:计算机应用研究
推荐引用方式: 夏宗涛,秦进.一种深度Q网络的改进算法.[J].计算机应用研究计算机应用研究,36(12) (点此复制)
版本历史
[V1] 2018-10-11 09:20:10 chinaXiv:201810.00021V1 下载全文
相关论文推荐

点击下载全文

当前浏览

更改浏览

跨类浏览

  • - 暂无