【摘 要】
:
强化学习,作为一种通过自主交互从反馈中学习的机器学习范式,已经在包括游戏AI、个性化推荐、自动驾驶等多个领域都表现出巨大的应用潜力。然而,良好的模型表现需要海量的数据作为支撑,与之对应的,是计算资源和时间上的高需求,这阻碍了强化学习大规模的应用落地。知识的有效利用可以大幅减轻模型对和海量数据的依赖,从而建立起鲁棒可信赖的智能系统,但在应用中仍面临着挑战:一方面是模型中的知识如何输出,如何将智能体学
论文部分内容阅读
强化学习,作为一种通过自主交互从反馈中学习的机器学习范式,已经在包括游戏AI、个性化推荐、自动驾驶等多个领域都表现出巨大的应用潜力。然而,良好的模型表现需要海量的数据作为支撑,与之对应的,是计算资源和时间上的高需求,这阻碍了强化学习大规模的应用落地。知识的有效利用可以大幅减轻模型对和海量数据的依赖,从而建立起鲁棒可信赖的智能系统,但在应用中仍面临着挑战:一方面是模型中的知识如何输出,如何将智能体学习得到的知识从黑盒模型中蒸馏出来,使其能够被传递和理解,即实现模型解释;另一方面是,如何将已有的先验知识融入模型的训练之中,从而提升智能体的能力,使其适应更广泛的应用场景。本文针对这两个问题开展研究,具体工作如下:1.本文针对强化学习的模型解释,提出了一种基于跨模型蒸馏的策略解释方法。该方法通过将黑盒的神经网络模型蒸馏成更具结构化特征的决策树模型,来实现对原模型的解释和验证。考虑到一般的基于监督学习的模型蒸馏方案假设了数据分布的一致性,这在强化学习场景中并不满足,我们提出了一种全新的蒸馏目标。新的蒸馏目标近似最大化累积奖赏,并且重点关注关键状态下的动作,从而能够避免数据分布偏移带来的影响。我们在经典Gym环境和复杂场景下进行了实验评估,验证了在该算法下,不仅蒸馏出来的决策树具备更高保真度更好的表现,对应的解释信息也可以更好地揭示智能体的意图。2.本文针对强化学习中的高效知识融入,提出了一种混合学习和编码的强化编程框架。该框架以函数为桥梁,允许程序员进行代码和神经网络模型的混合编写,以解决复杂任务。相比于指令、语言的形式,程序语言具备表达能力强、无歧义性、结构化程度高等诸多优点,能够以最大限度实现人类知识在模型中的融入。具体的,我们将函数的输入、输出作为神经网络的输入输出,通过混合程序的不断运行来收集数据,进行网络模型训练。强化编程框架既允许为每个函数单独制定交互环境,也支持多个函数的环境共享。为了在后者中消除不同函数学习过程中的不利影响,我们引入了共享的奖赏网络来实现奖赏的重新分配。我们在编程问题、多种强化学习任务上进行了实验验证,在这些经典强化学习无法解决的问题上,强化编程通过合适的编码都能够有效完成。
其他文献
物联网概念于2005年提出来以后,从工业4.0到中国制造2025,物联网行业蓬勃发展。中国作为世界上最大的工业国家,将传统工业和物联网进行结合的工业物联网一直是近几年来工业界的研究热点。现如今越来越多传统的工业公司纷纷接入物联网设备,自己研发工业物联网平台,将其采集到的工业现场设备的数据接入相应的平台中进行管理,期待降低对设备的人工管理成本,提高设备寿命和生产效率。针对上海某电子技术有限公司的物联
近年来随着经济、社会的不断发展,市场和企业对于高级技术人才的需求程度不断提升。与此同时,随着教育改革的不断深化,我国对于职业教育的重视程度也日益提升,并将推进职业教育校企合作作为重要内容写入十九大报告中,这在某种程度上推动了高职教育的快速发展。高等职业教育是职业教育的重要组成部分,这种教育更加注重的是技术实用性人才的培养,校企合作职业教育模式应运而生。校企合作不仅能够提高在校生的综合素质,最重要的
随着医疗机构信息化建设的发展,诸多医疗服务流程中产生了海量多源异构医学数据。隐私考虑导致数据孤岛问题在医疗大数据中尤其显著,给现今以数据驱动为主的研究带来一定阻碍和挑战。除此之外,对于诊断等特定医疗服务,高效利用医学数据进行综合分析也是难点之一。针对上述问题,探究利用联邦学习和强化学习技术分别解决数据孤岛和医疗信息融合问题的技术方案。以甲状腺癌的辅助诊断为例,论证该医学数据分析系统的可行性。甲状腺
当前,计算机视觉领域中大量的研究都是基于户外采集的清晰图像开展的,而在实际情形中,许多户外图像采集设备面临着诸多可能性,例如由于天气原因,雾天下采集的图像发生严重退质,清晰度差,这将为进一步的目标识别和检测带来极大的困扰。因此为增强其实用性,通过相关技术手段实现图像去雾十分重要。对于户外监控系统,通过实时视频去雾在有雾天气下将会带来更好的场景识别度,辨别场景中的目标,因此视频实时去雾有重要的现实意
我国正处于经济高速发展的时代,中小企业等民营经济的发展,注入了新的活力。但是,随着众多中小企业的设立,为了其自身的长远发展,首先需要解决的第一个问题便是企业融资。根据我国目前现行法律法规的规定,银行等金融机构具有发放贷款的权力。但是向银行贷款需要符合其严苛的规定,生产经营规模小的民营企业难以符合。同时伴随我国居民生活水平的上升,公众手中握有大量资金想要投资理财。二者的需求相互对应,民间融资的市场便
随着移动互联以及物联网时代的日渐繁荣,用户在商场、校园、医院等室内定位场景对智能领航、定位等服务提出越来越高的要求,受建筑物自身遮挡和结构影响,GPS等室外定位技术难以充分满足用户室内定位需求,因此室内定位技术蓬勃发展,从诞生至今一直是研究和应用的热点领域。本文以WIFI室内定位为主要技术路线,基于位置指纹法,实现了室内定位及其轨迹预测。针对WIFI路由器的布设问题,提出了AP综合选择策略,对待测
在各种常见恶性肿瘤中,肺癌所导致的新患者和新增死亡数量是占据各种罹患肿瘤致死病例中最多的。尽管从2002~2014年肺癌死亡率下降了17%,从1990~2014计算则降低了43%,但仅仅以男性死亡数量计算,全球新增死亡数量159万,占据全部癌症死亡人数的26%。肺癌前期诊断的一个重要依据便是CT医学影像,同时后续诊断和治疗方案中需要用CT引导穿刺区域,以及根据CT标记肺结节轮廓。因而,如果能够结合
行人属性识别具有智能性、精确性、实时性等显著特征,其研究与应用对于商业、安保、城管等领域中行人身份识别、行人检索、个性化服务应用具有重要的现实意义。本文以行人属性识别系统为研究对象,结合视频监控的日益普及亟待智能化的需求,针对银行、商场等拥有行人属性识别潜在应用价值的监控场景,设计并实现了具有深度学习的行人属性识别系统。在对系统的需求和可行性进行分析的基础上,给出了系统的总体架构与组成、工作流程和
基于深度神经网络(DNN)的软件系统已经广泛应用在各种分类任务中。在分类效果极佳的同时,DNN也可能因隐藏的缺陷表现出不正确的行为,从而导致严重的事故和损失。为了确保安全性,与传统软件类似,通常采用测试技术检测出DNN不正确的行为并提高DNN质量。然而,在基于DNN系统的自动化测试中,通常无法直接定义给定输入后正确输出的测试预言。为了获取测试预言信息,通常需要花费昂贵的人力来标记测试数据,这显著地
我国经济的快速发展也带来了严重的环境问题,气体燃料相较于煤等固体燃料,燃烧过程中产生的污染物较少,得到越来越广泛的应用。焦炉煤气和驰放气作为工业生产的副产品,对其进行充分利用具有较高的经济价值和环保意义。本文通过数值模拟的方法,以降低氮氧化物排放为主要目标,对河南某化工厂新设计的焦炉煤气和驰放气双燃料扩散式燃烧器进行研究。首先对常州某化工厂已投入生产的天然气和氢气双燃料扩散式燃烧器进行数值模拟,通