论文部分内容阅读
电子鼻技术发展至今已有几十年的历史,在环境监测、食品安全、医疗诊断等方面得到了广泛的应用。嗅觉和其他人类知觉类似,是一种主动感知(Active Perception)过程,可以用马尔可夫决策过程(MDP)来描述,强化学习是解决MDP问题的重要的方法。近年来,结合了深度学习的强化学习算法(如DQN、A3C等)取得了很大的突破,受到了越来越多的重视。传统的强化学习算法依赖外部奖励信号,但在外部奖励稀疏或者缺乏时强化学习算法便无法适用。而生物体可以在只有稀疏外部奖励信号或者没有外部奖励信号的情况下进行学习。本文在生物学习的仿生基础上提出了一种基于内在激励学习机制的强化学习框架,模拟生物在学习过程中产生内部奖励信号(如好奇心和赋能),通过内部奖励信号和外部奖励信号共同作用,以弥补强化学习的缺陷。针对目前电子鼻存在的不足,本文应用基于内在激励学习机制的强化学习框架来提高电子鼻性能。主要进行了以下研究:(1)硬件传感器由于其电子特性、数量等原因决定了电子鼻无法与生物嗅觉相媲美,本文尝试在改善进气气道设计、传感器布置以及动态调制采样速度基础上,将传统的静态分类算法,转换为动态马尔可夫决策过程,以充分利用信号的动态特性,来弥补传感器数量、特异性等方面的不足;(2)运用结合了深度学习的强化学习算法进行在线的分类学习,可以有效地解决特征提取以及状态空间维数灾难等问题。为解决强化学习依赖外部奖励的缺陷,本文提出一种基于内在激励学习机制的强化学习框架,通过内部奖励和外部奖励的结合,可以有效解决学习中的探索和利用问题;(3)提出了两种内在激励信号的设计,一种是基于预测误差的好奇心或新颖性,一种是基于信息论的最大信道容量。其中基于预测误差的激励信号是鼓励探索内部模型预测出错的状态空间;而基于信息论的最大信道容量则是鼓励探索输出动作(action)能影响观测(输入)的状态空间,使Agent具有较高的赋能(Empowerment);(4)在上述研究基础上,设计了黄酒分类和VOC气体分类实验来验证本文提出的基于内在激励学习机制的强化学习框架,实验结果表明,相比较传统的强化学习,本文提出的框架不需要显示设计外部强化信号;与传统的基于稳态信号的分类算法相比,在保持分类准确性的同时,可以充分利用动态信号的丰富结构,缩短了检测时间。