过估计相关论文
值函数估计在深度强化学习算法中应用广泛,并且在状态和动作空间较复杂的环境中可以解决传统强化学习中遭遇的维度灾难问题。因此,......
近年来,随着科技和人类生活需求的不断提升,移动机器人路径规划技术成为了机器人研究领域的研究热点问题。在路径规划应用中,移动......
盲均衡技术是数字通信系统中的一项重要技术,它不需要训练序列就可以完成信道均衡。基于二阶循环平稳统计量的盲均衡是目前性能良......
由于受材料物性参数、外部激励、边界约束与加工装配误差等不确定性因素影响,工程结构的静动力学特性和响应往往难以精确预知。尤......
针对深度Q学习算法在机器人路径规划中的过估计问题,提出一种动态融合深度双Q算法(dynamic target double deep Q network,DTDDQN)......
强化学习的经验回放方法在减少状态序列间相关性的同时提高了数据的利用效率,但目前只能用于确定性的状态环境.为在随机状态环境下......
为了更好地在LDPC码的译码中使用最小和算法,尽量减少最小和算法译码过程中的性能损失,对最小和译码算法进行了深入研究,通过对最......
针对深度强化学习算法中存在的过估计问题,提出了一种目标动态融合机制,在Deep Q Networks(DQN)算法基础上进行改进,通过融合Sarsa......