鸽子学习进程的价值分布演化规律与抉择机制解析及建模

来源 :郑州大学 | 被引量 : 0次 | 上传用户:Aslaen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
与现有机器强化学习相比,动物能够利用小样本实现高效学习且在动态环境中自适应切换行为策略,进而面对复杂环境做出最优抉择。动物学习与行为抉择的脑机制研究对于发展更加高效的强化学习和智能决策理论具有重要启发和借鉴作用。从本质上讲,动物以价值回报作为学习的动力,但目前动物学习进程中大脑如何编码价值、动态调整价值,以及高效利用价值形成决策的相关机制尚不清晰。因此,深入研究动物学习进程中价值分布的演化规律,解析其动态抉择机制,并在此基础上建立更加高效的类脑强化学习算法和决策模型,具有重要科学研究意义和广阔实际应用价值。为此本文选用认知学习研究的典型动物——鸽子作为模式动物,通过脑结构解剖技术准确定位价值编码的关键脑区纹状体(Striatum,ST)和行为决策编码的关键脑区弓状皮质尾外侧区(Nidopallium Caudolaterale,NCL),将动物行为学方法与多通道神经电信号分析相结合,深入解析鸽子学习进程中的价值分布演化规律与抉择机制。主要工作:首先,设计了反映鸽子动态学习过程的价值学习及反转学习实验范式,采用多通道局部场电位信号构建功能连接网络,提取其聚类系数作为表征价值的神经编码特征,分析了学习进程中ST脑区价值分布及其演化规律;然后,设计了反映鸽子利用价值形成决策的多价值比较抉择实验范式,解析了鸽子动态决策过程中的NCL脑区神经编码特征分布变化与抉择行为的相互关系;在鸽子价值学习与行为抉择脑机制启发下,提出了一种基于价值分布增量学习算法的动态决策方法,并用强化学习中典型案例多臂Bandit问题验证了该方法在解决非平稳高斯回报问题上的优势;最后,用上述动态决策方法建立了一种基于价值分布表征的双误差调制强化学习决策模型,在解决强化学习经典问题上显示了该模型的优越性。主要创新性成果如下:1、揭示了鸽子学习进程中ST脑区价值分布的演化规律,发现了多价值比较抉择时NCL脑区神经编码特征分布变化有效反映了鸽子抉择行为的变化。对于价值学习,ST脑区价值分布均值会随着样本回报值的大小变化向表征价值高低的特定方向迁移,同时分布的方差变小,并且存在从“学”到“习”阶段的跃变现象。当环境回报统计特性发生反转后,则会出现价值编码反转迁移现象;在多价值比较抉择过程中,发现NCL脑区不同行为的价值分布间距变化程度可以反映鸽子抉择行为在价值探索与价值利用之间动态切换的机制,即当不同行为的价值分布重叠较大时抉择行为具有随机性,当不同行为的价值分布显著可分时抉择行为明显倾向于选择高价值的行为。2、提出了一种新的基于变分推断期望最大化的价值分布增量学习算法(Distributional Value Increment Learning based on Variance Inference Expectation Maximum,DVIL_VIEM)。借鉴鸽子学习进程中的价值分布演化规律,本文依据新样本增量学习的方式,自适应迭代更新价值分布的均值、认知方差和环境回报方差,首次利用价值分布变化建立学习停止与重启的规则,实现了价值分布估计的高效习得和回报突变时的自适应重启学习。3、提出了一种价值分布增量学习和间距门控相结合的动态决策新方法(Dynimal Decision based on Distributional Representation of Values,DDDRVs)。受鸽子动态决策脑机制启发,本文基于贝叶斯推断框架,利用价值分布增量学习算法(DVIL_VIEM)来更新选中行为的价值分布,当不同行为的价值分布间距大于一定门控阈值时,动态切换汤普森采样策略为贪婪策略,以加速最优行为策略的形成,为解决强化学习有限采样条件下价值探索与利用的平衡问题提供了更高效解决途径。4、构建了一种新的基于价值分布的双误差调制强化学习决策模型(Dual Error Modulated Actor-Critic Model,DEMAC)。借鉴鸽子价值编码与决策脑区分工协作机制,对行动者与评价者之间信息交互形式和优化目标进行了改进,根据行为预测误差和价值预测误差协同更新价值分布和策略分布,在价值和策略分布的学习进程中均嵌入了“学”、“习”阶段动态检测机制,有效提升了最优策略学习的收敛速度与自适应性。
其他文献
在目标导向的空间导航中,从当前位置到目标位置的路由执行是最重要的任务之一。但是大脑如何表征路由执行过程中的关键信息,以支持路由的形成与调整,目前仍不清楚。为了研究目标导向路由形成与调整过程中的神经表征及解码问题,本文以具有卓越空间认知和导航能力的鸽子为模式动物,设计了多路由选择的目标导向行为实验范式,同步采集了路由形成与调整过程中的行为学数据和多脑区神经信号,基于多模态神经信号分析手段、复杂网络理
学位
随着半导体线宽节点降低至纳米量级,增强芯片内部核心电路的可靠性成为研究者必须面对的问题。在影响芯片可靠性的众多因素中,静电放电(Electrostatic Discharge,ESD)导致失效的占比高达35%。近年来,在先进低压工艺下,ESD对芯片内部的损坏越发显著,该现象严重制约芯片质量的提高和发展。因此为了提高芯片整体的ESD鲁棒性,无论是企业还是科研单位都开始重视半导体产品内部的静电防护设计
学位
运动准备电位是运动执行前头皮额叶中央区域出现的缓慢上升负电位,是一种可以通过电极检测的神经信息,研究人员认为该信息可以反映大脑的运动准备活动。运动意图是运动执行前大脑的认知思维活动,从神经信息中获取运动意图的过程称为运动意图解码。运动准备电位是目前用于运动意图解码的主要神经信息。运动意图解码在脑-机接口和神经性疾病诊断方面具有重要的作用。前期研究工作中发现个别受试者出现了运动准备电位消失的现象,进
学位
在高功率光纤激光系统中,常会出现激光照射到目标处产生的回光被重新耦合到激光器内部并得到放大,从而损伤激光系统的现象.对于高功率光谱合成光纤激光系统等缺乏有效回光防护的高功率激光系统,该情况尤为严重.为了解决上述问题,有必要综合整个系统链路中的多种物理效应,评估和分析反射回光对系统运转状态的影响,在设计光纤激光器时优化光路布局和系统结构,以尽量避免不必要的损失.本文基于大气传输理论、光纤速率方程和介
期刊
锂离子电池广泛应用于电子产品、新能源汽车和规模化储能等领域。近年来锂离子电池滥用引起的火灾和爆炸事故频发,安全问题凸显,成为规模化应用的主要瓶颈。在当前锂离子电池的工作原理和制造水平没有革命性变化的条件下,优良性能的电池管理系统是确保锂离子电池安全应用的基础。当前主流电池管理系统的感知输入是单体电池的端电压和表面温度,具有很多优势,但也存在诸多问题。为了提高锂离子电池的安全应用水平,在电池管理系统
学位
目的 观察年幼儿童早期喘息的临床特征,探讨其进展为哮喘的影响因素。方法 135例早期喘息的年幼儿童(≤5岁),喘息发作急性期采用吸入糖皮质激素、β2受体激动剂、M受体激动剂或口服白三烯受体拮抗剂治疗,治疗后随访1年,根据是否进展为哮喘分为哮喘组60例和非哮喘组75例。比较2组首次喘息年龄、过敏原、病毒病原学等临床资料,采用多因素logistic回归分析年幼儿童早期喘息1年内进展为哮喘的影响因素。结
期刊
研究背景:肺癌是全球癌症死亡的主要原因,在我国肺癌的发病率和死亡率居恶性肿瘤中的第一位。根据病理类型的不同,肺癌可分为非小细胞肺癌(non-small cell lung cancer,NSCLC)和小细胞肺癌(small cell lung cancer,SCLC),其中NSCLC是临床上最常见的病理类型,约占肺癌总数的85%。随着精准治疗的不断发展,肺癌靶向治疗、抗血管生成治疗及免疫治疗在一定
学位
研究背景脑膜癌病(leptomeningeal metastasis,LM)是恶性上皮源肿瘤(癌症)的软脑膜转移,多由软脊膜或软脑膜内转移性肿瘤细胞浸润扩散所致。LM是实体肿瘤的晚期严重并发症之一,临床症状多样,早期诊断有一定难度,治疗手段有限,死亡率高。肺癌是最易合并脑膜转移的实体肿瘤之一,非小细胞肺癌(non-small patients cell lung cancer,NSCLC)晚期合并
学位
国家癌症中心发布的最新全国癌症报告显示肺癌位居我国恶性肿瘤新发病人数及死亡人数首位,“早发现、早诊断、早治疗”是提高生存率的关键。低剂量CT(Low-Dose Computed Tomography,LDCT)筛查的推广有效地减低了肺癌的死亡率,但同时伴随的问题是肺结节临床检出率的显著提高。肺结节指CT发现的直径≤3cm的密度增高影,根据密度可分为实性结节(Solid Nodules,SN)和亚实
学位
PCCP(预应力钢筒混凝土管)作为地下生命线工程的重要组成部分,已被广泛应用在大型引水调水工程中,其中有不少管线穿越高烈度地震区。由于PCCP的多材料复合特性以及地震激励的随机性,结构在运行过程中的破坏形式和可靠性预测更复杂,但目前针对运行过程中PCCP结构的地震响应及减震抗震方面的研究较为缺乏。基于此背景,本文采用理论分析、数值模拟以及足尺试验相结合的方式,探究了运行过程中PCCP结构在随机地震
学位