面向深度强化学习的样本生成与选择方法的研究

来源 :贵州大学 | 被引量 : 0次 | 上传用户:marinefish
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度强化学习是人工智能领域用于处理序贯决策问题的重要研究分支,其根据智能体与环境的交互过程中所产生的样本来学习最优策略。由于学习过程需要智能体与环境进行大量交互所产生的样本数据作为支撑,使得深度强化学习算法在一些样本数据获取昂贵的应用中受到限制。深度强化学习中使用不同的行为策略会生成出不同的数据样本,同时,对数据样本的选择方式也将影响到所学习到的策略。为了提高深度强化学习的样本效率、减少智能体与环境的交互、获得优质策略,本文完成了如下工作:(1)提出基于平均序列累计奖赏的自适应ε-greedy策略(AECR-DQN)。对深度强化学习中常用于样本生成的随机性探索策略——“ε-greedy”策略进行改进,该策略未考虑影响智能体做出决策的其他因素,具有一定的盲目性。因此,本文以智能体完成任务所获得的序列累计奖赏值作为智能体进行合理的探索或利用的指导。实验结果表明,基于平均序列累计奖赏的自适应ε-greedy策略的深度Q网络算法,能生成出更利于学习最优策略的样本、获得更高的奖赏值。(2)与传统深度强化学习从经验回放单元中随机采样单个状态转移四元组不同,提出以整个序列轨迹作为训练样本的样本生成与选择方法。首先提出基于遗传算法的交叉算子生成序列样本的方法(GCO-DQN),以两条序列轨迹中的相似状态作为交叉点,产生出当前未出现过的序列轨迹,从而达到扩充序列样本数量、增大序列样本多样性的目的。在生成序列样本的基础上,提出基于遗传算法的选择算子选择序列样本的方法(GSCO-DQN),将序列累计奖赏作为序列样本重要性的评判标准后对样本进行选择,在保证序列样本的多样性增加重要性程度高的序列样本的采样概率。实验结果表明,基于遗传算子生成与选择深度Q网络样本的方法,能减少智能体与环境的交互次数,提高样本利用率,从而取得更高奖赏值的策略。(3)结合AECR-DQN与GSCO-DQN,提出基于遗传算子与自适应ε-greedy策略的样本生成与选择方法(AECR-GSCO-DQN)。自适应ε-greedy策略能更有针对性地生成样本,再通过遗传交叉算子作用于此样本后能得到更具多样性的样本,最后遗传选择算子再从中选择出更有利于学习最优策略的样本。实验结果表明,对比GSCO-DQN,AECR-GSCO-DQN能取得更高的平均奖赏值,进而提高策略水平。
其他文献
知识图谱作为人工智能的一个分支,在智能问答、专家系统和推荐系统等多个应用场景中提供数据支撑。典型的通用知识图谱有谷歌的Google knowledge graph、DBpedia、百度知心等,在领域知识图谱构建方面,有生命科学领域的Bio2RDF以及医学领域的中医药知识图谱等。在植物领域,北京林业大学构建了植物知识图谱,但是在数据源和构建规模方面尚不够丰富,不能很好地服务于知识图谱应用。本文针对植
谓语中心词是句子的焦点,通过谓语中心词识别可以解析句子各个部分语法要素,从而构建以谓语中心词为核心的事件知识图谱,对研究事件的动态变化与追踪具有重要意义。谓语中心词的识别需要判断其为句子的中心,传统的识别模型主要使用浅层的序列标注方法对句子中的每个字进行分类。由于谓语中心词的识别针对的是单个句子,因此获取句子中的语义信息非常重要。本文的主要工作分为以下两个方面。针对谓语中心词识别中上下文语义信息的
随着我国经济的快速发展,机场作为我国综合运输体系的重要设施,其建设进入高速发展阶段。拉萨贡嘎机场拟建第二跑道在河漫滩区域填方,场区地表水系和地下水发育,其中场区附近存有大量辫状河道、地下水位高、地基渗透性强、液化土分布范围广,地下水问题极其突出。为后期工程建设提供依据,本文就第二跑道在渗流场及应力场作用下地下水水位高度和地基沉降展开研究。首先,从对场区开展地质调查出发,了解全场区地下水的补径排关系
针对传统深度学习网络模型,所需样本量大、收敛速度慢、泛化能力弱、识别速度低等缺点,本文首先基于Anaconda工具,利用OpenCV中的resize函数将原始数据集统一变换为256×256尺寸的标准格式,并利用tensorflow.keras.preprocessing接口中的image类创建图像生成器Image Data Generator来高效增强数据集,形成原始数据集1。其次基于双边滤波和局
随着经济的发展,特别是近三十多年的改革开放,我国人民的生活水平有了极大的提高。人们的财产收入变得越来越多,财产的形式和数量也变得越来越多样性。经济的发展,经济的独立,文明的进步,使得夫妻双方有了更多选择的途径。现在的女性不再像过去那样从一而终。当夫妻的感情不在,很多人选择了离婚。在离婚中最重要的便是财产的分割。财产分割的类型有很多,例如不动产,动产,股权,知识产权,古玩字画等。本文主要讨论研究夫妻
磷石膏作为湿法生产磷酸的副产物,一般每生产1t磷酸(以P2O5)将产生4.5-5t磷石膏,目前堆存对周边地下水、地表水、土壤、植被以及农业等造成危害。为进一步了解磷石膏中重金属是否对周边环境产生污染及环境风险,本研究选择选择福泉市马场坪瓮福集团磷石膏堆场为研究对象,研究堆场周边地下水、地表水、土壤及植物中重金属污染特征并对其进行环境风险评估,得到以下主要结论:(1)磷石膏渗滤液主要特征污染物为F-
随着互联网业务需求高速增长,容器云集群规模增大,传统容器云调度框架调度策略单一、镜像分发效率低下造成的集群资源浪费以及任务启动速度过慢等问题愈发明显。目前主流研究方案虽然对容器调度策略和镜像分发方案进行研究,但未从整体考虑容器云调度框架的协同工作效率问题。本文以真实云服务商容器云平台为研究背景,深入分析业务流程,为容器云调度框架设计一种高效率、高资源利用率的优化方法。该方法包括以下三方面工作:(1
当前,随着城市化的高速发展,城市人口增多,城市的建筑密度加大,中心城区用地更为紧张,绿地面积在不断减少。同时,随着物质文化水平的提高,城市市民的生活节奏加快,人与自然的接触越来越少,因此,城市市民对城市公园等公园活动场所的需求异常迫切。城市的口袋公园,成为缓解城市化高速发展与人居环境之间矛盾的权宜之计,也为满足城市市民对城市开放空间、游憩环境的需求提供了场地。然而口袋公园景观针对市民需求性方向的课
目的:通过荟萃分析来探讨联合肝脏分隔和门静脉结扎的分阶段肝切除术(associating liver partition and portal vein ligation for staged hepatectomy,ALPPS)和传统两阶段肝切除术(conventional two-stage hepatectomy,c TSH)治疗剩余肝体积(future liver remnant,FLR)
目前,随着大数据和5G产业的高速发展,各个领域产生的数据种类和数量都呈现出快速增长的态势,在数据开放共享逐渐改变了人们的生活、学习和工作方式的同时,个人隐私安全保护问题也日益显著。结构熵是在嵌入大规模噪音结构中解码出网络结构的真实结构信息,能够有效的度量出动态复杂网络中的隐私信息,在极大程度上弥补了信息熵无法对图结构中隐私信息度量的缺陷。由此可见,针对结构熵在图结构上的研究对于实现社交网络等大型网