论文部分内容阅读
行为抉择(认知执行)是人类与动物等智体(agent)在自然界优胜劣汰下得以生存而必备的技能,通过对外界信息的判断而指导其行为做出抉择。智体获取外界信息的主要来源是视觉,占据所有感知信息的80%以上。在自然界中,智体赖以生存的视觉-行为抉择大部分是后天学习(强化学习)得来。鸽子因其强大的视觉感知能力和不亚于哺乳动物的行为抉择能力,成为视觉认知领域的典型模式动物。因此开展鸽子视觉-行为抉择的强化学习研究,对于揭示智体在行为抉择中的认知机制具有重要意义,有助于理解智能抉择行为的脑机制,深化对大脑认知抉择工作原理的认识。关于鸽子视觉-行为抉择的研究虽已取得一些进展,但多侧重于静态规则下的强化学习研究,实验范式过于简化,多采用固定不变的学习率或单一的奖励矩阵,并不能真正的模拟智体在动态环境规则下的行为抉择机制。此外,NCL区(nidopallium caudolaterale)神经元在强化学习过程中所起的作用尚不明确。为此本文以鸽子为实验对象,设计了动态强化规则的视觉-行为抉择实验范式,开展行为训练,同步采集了鸽子NCL区神经元电信号,从行为学和神经元响应角度分析了鸽子在动态强化学习过程中的行为抉择特性和NCL区神经元的响应特性。本文主要开展的工作如下:(1)设计了两种动态规则下的视觉-行为抉择训练范式。设计了随机强化和反转强化两种视觉-行为抉择实验范式;根据拟定的实验流程搭建了行为训练的硬件与软件平台,实现了鸽子基于特定奖惩信息的自动化训练;同步采集了强化学习训练过程中鸽子NCL区神经元电信号,完成了神经元电信号的预处理。(2)提出了一种新的动态强化学习模型。通过对经典Q-Learning模型的学习率和奖励矩阵进行改进,提出一种新的动态强化学习模型,对鸽子在两种训练过程中的行为反馈数据进行分析,并与经典Q-Learning模型对比,结果表明采用动态强化学习模型预测行为的误差分别降低了46.98%与30.55%,同时发现该模型的学习率反映了鸽子在不同训练阶段的内部学习状态。(3)提取了不同训练阶段鸽子NCL区神经元的响应特征,并做了统计分析。通过筛选有效试次响应信号,选取合适的响应时间窗,计算了特定时间窗内的放电频率,作为神经元响应特征;采用曼惠特尼检验分析了鸽子在强化学习过程中NCL区神经元响应特征差异显著性。结果表明,部分(10/60)神经元的响应特征反映了训练中的奖惩信息;部分(21/60)神经元的响应特征包含了鸽子学习状态的信息。该结果说明NCL区的神经元在强化学习过程中扮演了不同的角色。