论文部分内容阅读
脑机接口直接将大脑的运动信息解析成外部设备的控制指令,实现了大脑与外界环境的直接交互,为残障患者重建运动功能提供了一种新的途径。目前主要的神经解码算法分为基于监督学习和基于强化学习两大类。相比于基于监督学习的解码模型,基于强化学习的神经解码的特点在于:(1)无需实际的用户肢体行为数据;(2)允许用户通过试错的方式学会动态地操控外部设备。这类解码算法可以追踪到时变的神经活动,并实现用户和解码器的相互适应,能够保持长期稳定的解码性能。目前,该方向的研究主要集中在离散、简单的任务上。但是,脑机接口任务日益复杂多样,传统的强化学习算法难以满足其解码要求,而尚无针对复杂任务的强化学习解码算法的相关研究报道。本文研究基于强化学习的神经解码关键技术,聚焦于连续、复杂任务中状态-动作空间大而探索困难,时间信用分配导致学习速度慢,以及神经信号中混有噪声导致自适应解码性能降低等存在的难点问题。针对上述挑战,本文采用高效的强化学习算法探索复杂的神经状态-动作空间,重建连续的运动轨迹;结合核自适应滤波器理论,设计新的解码算法实现非线性解码的全局最优解;引入相关熵抑制噪声对自适应解码性能的影响,从而实现鲁棒、稳定的神经解码。本文的主要研究内容及创新点如下:1.针对复杂神经状态-动作空间中探索困难的问题,本文提出采用attention gated reinforcement learning (AGREL)算法预测center-out任务中连续的2D摇杆轨迹。AGREL利用即时奖赏更新参数而不易受初始值影响,以及softmax策略依据概率选择最优与次优动作以避免解码性能的波动。与传统的Q学习算法相比,AGREL将预测轨迹和真实轨迹之间的相关系数提高了5.88%,均方误差则降低了41.66%,平均总目标到达率提高了28.01%。此外,相比于静态模型,自适应的AGREL保持多数据段的解码精度在85%以上,延长了脑机接口系统的使用时间。2.针对以往方法只分配时间信用而导致训练时间过长的问题,本文提出空间信用分配,实现在多物体的复杂环境中区分潜在目标。结合AGREL高效的误差信号机制与核自适应滤波器理论,本文首次设计了quantized attention gated reinforcement learning (QAGKRL)算法,实现非线性神经解码的全局最优解。该算法还利用量化方法压缩神经网络的拓扑结构以降低计算复杂度。与AGREL相比,QAGKRL在避障任务中的平均成功率显著提高,保证了解码的准确性和稳定性。3. 针对由神经信号中噪声降低解码精度的问题,本文引入最大相关熵准则作为AGREL和QAGKRL的优化函数,能够降低解码模型对异常值等噪声的敏感性,从而提高解码性能。基于最大相关熵准则的AGREL和QAGKRL在避障任务中的平均总成功率分别提高了12.56%和6.08%。综上所述,本文尝试解决了基于强化学习的脑机接口中连续、复杂任务的神经状态-动作空间探索困难问题、空间信用分配问题以及神经信号的降噪问题。本文深入探索了一系列基于强化学习的解码算法,并应用于复杂多样的任务,实现了稳定、鲁棒的神经解码,为脑机接口的未来发展打下了坚实的基础。