基于意图理解的强化学习算法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:yulei000111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着强化学习的不断发展,强化学习的性能获得了极大的提升,并在工业生活中得到了越来越广泛的应用。强化学习的基本行为模式是智能体和环境进行持续不间断的交互,从而得到来自环境的奖励反馈信息,并利用这些交互信息数据对算法模型进行训练优化。然而,目前的强化学习中仍然存在着诸多的问题,例如强化学习算法对经验数据的利用率低的问题。在多智能体系统中,任务的训练难度会随着智能体数量的增多而越来越困难,产生奖励稀疏的问题。从智能体的经验数据中挖掘潜在的意图信息可以辅助智能体的训练。本文从意图理解的角度出发,针对强化学习中对经验数据的利用率不足的问题,提出了基于意图理解的强化学习方法。本文的主要工作如下:(1)本文提出了一个意图理解模型。该模型通过从智能体的轨迹数据进行分析,获得轨迹数据本身的表征信息,轨迹数据间的结构表征,以及智能体各个时间步之间的时序关系信息,并将这些信息融合,从而构建智能体轨迹意图信息的识别与理解。(2)提出了单智能体意图理解强化学习算法。该算法利用意图理解模型对智能体的每一个时间步的经验数据进行意图理解,然后利用意图理解信息对经验数据进行分类存储。在训练过程中根据智能体的训练情况,从不同的意图经验池中抽取不同比例的经验数据进行训练,实现算法模型的训练从泛化训练逐步过渡到特化训练。实验结果表明,该方法可以缓解强化学习中主要样本效率不足,对关键经验数据样本的利用率过低的问题。(3)提出了多智能体意图理解强化学习算法。该算法利用意图理解模型在智能体数量少、难度低的环境中进行预训练,生成多智能体系统中的意图理解模型。并将此意图理解模型作为辅助知识,应用到智能体数量更多、难度更高的环境中,从而加速多智能体算法的训练。实验结果表明,该方法可以缓解强化学习中奖励稀疏的问题,实现算法模型从简单任务到复杂任务的学习,提升模型的泛化能力。
其他文献
《义务教育语文课程标准(2022年版)》提出从“单元整体教学”角度设计“单元任务群”,是语文课程教学的重点走向。但受每节课教学时间固定的局限,“单元大任务”必然要落实到每一篇课文、每一课时中。整体把握篇章,明确单元目标;用心解读教材,发现表达特色;紧扣表达特色,创设实践任务,便是靶向素养培养、基于单元整体、立足文本解读,设计“单篇小任务”的有效策略。
期刊
随着软件工程领域对APP(Application,应用程序)的研究越发深入,有关APP的UI(User Interface,用户界面)方面研究越发受到关注,如数据驱动的UI分析和生成,UI的自动化测试与错误检测,UI的设计搜索与布局推荐等。如何提高UI的用户友好程度,让用户更易使用,已经成为热门的研究问题。在APP的实际开发中,比较普遍的做法是通过借鉴其他优秀的作品吸取经验,进而提升自己的UI。参
学位
机场航站楼公共区存在较大的火灾危险性,并且公共区中各类可燃荷载的燃烧特点也不同。本研究通过对商铺货架、书店书架、值机普通座和商务桌椅开展全尺寸实体试验,并采用火灾模拟软件FDS进行全尺寸建模和数值模拟,分析荷载类型与燃烧过程和温度的相关性,对比实体试验与FDS模拟的燃烧过程、温度、HRR等参数的差异及原因,并通过SPSS技术分析差异的产生机理。研究结果表明,可燃物的HRR与O2/CO2释放率会降低
会议
近年来,我国资本市场中企业操纵利润等现象时有发生,使得社会各界对企业盈余质量尤为关注。盈余质量的高低不仅关系到外部使用者基于企业盈余的各种决策的正确性,还会影响资本市场的正常运转。内部控制作为确保盈余质量的核心制度安排,其目标之一就是保证企业财务报告及相关信息的真实完整。随着《企业内部控制基本规范》的出台,我国逐步形成了一套规范的内部控制体系,但迄今为止,关于内部控制对盈余质量影响的研究尚未得出一
学位
随着信息技术和硬件水平的不断发展革新,现代生物识别技术越来越多的步入人们的日常生活中。尤其是近几年,新型冠状病毒肺炎在全球爆发,人们出入重要公共场合需要进行准确的身份认证和登记,但是面对新冠病毒极强的传染性和致病率,需要保证身份认证过程中受众的人身安全。而虹膜识别技术作为生物识别的热门研究方向之一,由于其非接触采集,不易伪造,可靠性高等特点,无疑是最符合当下身份认证需求的研究方向之一。而在虹膜识别
学位
保护湿地资源是维持物种多样性、确保生态建设质量的关键。基于此,针对南漪湖入湖河口现状,首先从生态效益、社会效益和经济效益分析湿地生态修复的必要性,其次提出生态修复目标和措施,旨在供相关人员参考,加快宣州区南漪湖入湖河口湿地生态修复。
期刊
为掌握FDS软件系统在中国火灾仿真领域的实际使用状况,利用我国知网对2011~2021年度收录的2092篇杂志学术论文开展了文章计算分析,并利用Citespace软件,对作家群体分布、杂志文章分布、发文数量、发文机构、文章重要内容、关键字和科研前沿领域等相关重要方面,开展了知识图谱分析。
会议
目的:调查系统性红斑狼疮病人疾病感知情况,评估其疼痛程度,了解其生活质量现状,探讨疾病感知与疼痛对生活质量的影响。方法:于2021年8月—2021年12月采用疾病感知问卷简化版(BIPQ)、疼痛数字评分表(NRS)和生命质量调查量表(SF-12)对我院风湿免疫科住院的81例系统性红斑狼疮病人进行问卷调查,采用Pearson相关、多元线性回归分析疾病感知、疼痛对病人生活质量的影响,并分析不同特征病人
期刊
随着我国改革开放的不断深入,市场经济体制不断完善,房地产行业也随之蓬勃发展。目前,房地产行业不仅是我国国民经济的支柱产业,更是推动社会进步的重要力量。房地产行业属于资金密集型行业,负债投资经营是其基本发展模式,科学合理地安排债务融资规模与结构有利于其投资效率的提高,从长远来看更有利于该行业乃至国民经济的稳健发展。论文以珠江股份作为研究对象,以合理化其债务融资水平与结构、促进债务治理作用有效发挥进而
学位
生物信息学是当今生命科学和自然科学的前沿领域,其主要研究内容之一为开发或设计一系列相关工具,以更有效地获取、分析和管理各种生物数据,为相关科研人员提供便捷的数据信息渠道。近年来,随着该领域的快速发展,生物信息学领域的优秀工具不断涌现。与此同时,生物信息学细分领域众多,产生的相关工具种类繁杂,对学习和使用工具造成了一定难度。知识图谱可以帮助人们解决上述问题。谷歌率先提出知识图谱的相关概念,用以辅助数
学位