基于内在激励学习机制的电子鼻系统

来源 :浙江工商大学 | 被引量 : 0次 | 上传用户:lijun1111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子鼻技术发展至今已有几十年的历史,在环境监测、食品安全、医疗诊断等方面得到了广泛的应用。嗅觉和其他人类知觉类似,是一种主动感知(Active Perception)过程,可以用马尔可夫决策过程(MDP)来描述,强化学习是解决MDP问题的重要的方法。近年来,结合了深度学习的强化学习算法(如DQN、A3C等)取得了很大的突破,受到了越来越多的重视。传统的强化学习算法依赖外部奖励信号,但在外部奖励稀疏或者缺乏时强化学习算法便无法适用。而生物体可以在只有稀疏外部奖励信号或者没有外部奖励信号的情况下进行学习。本文在生物学习的仿生基础上提出了一种基于内在激励学习机制的强化学习框架,模拟生物在学习过程中产生内部奖励信号(如好奇心和赋能),通过内部奖励信号和外部奖励信号共同作用,以弥补强化学习的缺陷。针对目前电子鼻存在的不足,本文应用基于内在激励学习机制的强化学习框架来提高电子鼻性能。主要进行了以下研究:(1)硬件传感器由于其电子特性、数量等原因决定了电子鼻无法与生物嗅觉相媲美,本文尝试在改善进气气道设计、传感器布置以及动态调制采样速度基础上,将传统的静态分类算法,转换为动态马尔可夫决策过程,以充分利用信号的动态特性,来弥补传感器数量、特异性等方面的不足;(2)运用结合了深度学习的强化学习算法进行在线的分类学习,可以有效地解决特征提取以及状态空间维数灾难等问题。为解决强化学习依赖外部奖励的缺陷,本文提出一种基于内在激励学习机制的强化学习框架,通过内部奖励和外部奖励的结合,可以有效解决学习中的探索和利用问题;(3)提出了两种内在激励信号的设计,一种是基于预测误差的好奇心或新颖性,一种是基于信息论的最大信道容量。其中基于预测误差的激励信号是鼓励探索内部模型预测出错的状态空间;而基于信息论的最大信道容量则是鼓励探索输出动作(action)能影响观测(输入)的状态空间,使Agent具有较高的赋能(Empowerment);(4)在上述研究基础上,设计了黄酒分类和VOC气体分类实验来验证本文提出的基于内在激励学习机制的强化学习框架,实验结果表明,相比较传统的强化学习,本文提出的框架不需要显示设计外部强化信号;与传统的基于稳态信号的分类算法相比,在保持分类准确性的同时,可以充分利用动态信号的丰富结构,缩短了检测时间。
其他文献
提出了一种测量钢筋腐蚀的新型传感器·这种传感器将光纤光栅拉伸后固定在圆形钢筋的表面,在钢筋被腐蚀后,光纤光栅所受到的拉伸应变将被释放,光纤光栅的反射光波长发生变化,通过测量光纤光栅的波长就可以测得钢筋腐蚀程度·这种传感器测量准确度优于±0.1μm,测量范围约12μm,可用于混凝土结构中钢筋腐蚀的早期监测·
带着对“5·12”汶川特大地震遇难同胞的深切缅怀,带着广大群众渴望提高防灾减灾技能的真诚期盼,2013年5月12日,吉林省通化市在新华广场隆重举行了第五个“防灾减灾日”集中
首先介绍Gerber格式和关键提示性参数,在CAM中读入Gerber数据前有五组参数设置必须要正确,经过CAM软件运用,对Gerber文件读入中发生的问题,*.arl模板修改或重新编辑来解决Gerber文件读入问题,进行了分析,为正确读入Gerber文件找到有效的方法进行探讨。
2013年“防灾减灾日”的主题是“识别灾害风险,掌握减灾技能”。这一定位是对去年主题“弘扬防灾减灾文化,提高防灾减灾意识”的细化和具体化,它抓住了防灾减灾文化建设的关键,即
根据迈克尔逊风场探测干涉仪探测原理,所探测的温度不确定度是由装置调制度不确定度和发射线的表观调制度不确定度所决定的.通过它们之间的定量关系,求出了对应于一定温度不确定
今年是中国气象局与国土资源部联合制作并发布全国地质灾害气象预报工作开展的第10年,经过10年的努力,国家级、省级、地(市)级和县级气象和国土部门针对地质灾害气象预报的联合制
串口通信作为传统的通信方式仍然受到广泛应用,本文选用高性能的通信卡,采用OOP(面向对象)编程思想,利用多线程技术和数据同步控制技术,实现了八个串口同时进行长时间稳定可
FrontPage以其功能强大、容易上手、界面亲切而著称。它采用所见即所得的方式编辑网页,利用它可以轻松的组织、编辑网页并将其发布到指定的站点上,而且在发布之后还能对更新情
广西壮族自治区南临热带海洋,北接南岭山地,西延云贵高原,北回归线横穿中部,属亚热带季风气候区,是典型的喀斯特地貌区,地貌以山地丘陵盆地为主,地理位置和自然地理条件都较为特殊,各
通过VB,VBA技术完成Microsoft Excel测试系统设计和实现,给出了一种通用Microsoft Excel测试系统的设计方法,为相关课题的研究者提供一个完整的参考模式。