论文部分内容阅读
近年来,深度学习模型在许多领域都取得了卓越成果,这其中的关键是大规模的有标注数据集。但实际上大规模数据集很难拥有完善的数据标注。那么如何利用小样本数据集来充分训练深度学习模型就显得尤为重要。其中,医学数据具有样本采集难、负样本少、样本标注少等问题,因此医学领域中大规模有标注的数据集非常稀缺。心电图利用心电图机从体表记录了心脏每一心动周期所产生的点活动变化图形,是医生诊断心脏病疾患的重要辅助手段和参考信息,但心电图诊断的门槛高,难以做到实时诊断,很难有效预防和及时治疗心脏病病变。目前,关于小样本心电图时序数据分类领域的研究较少,分类结果在精度和效率上面具有较大的提升空间。本文主要基于深度学习,根据心电图时序数据特点,提出了一种代价敏感的基于堆栈式降噪自编码器和双向长短期记忆神经网络的分类模型,有效提高了分类正确率和效率,并且解决了数据不平衡问题。同时又利用了迁移学习的思想,对模型进行了自适应改进,完成了小样本数据从源域到目标域的迁移。本文首先提出了可以解决不平衡心电图数据集的数据分类模型,在该模型中,堆栈式降噪自编码器作为编码器,可以自动地学习心电图数据中的语义编码特征,而不需要通过其它复杂方法来手动地提取特征。随后,双向长短期记忆神经网络分类器通过堆栈式降噪自编码器提取出的特征实现数据的分类。其中,堆栈式降噪自编码器不仅压缩了数据维度,还实现了降噪,而长短期神经记忆网络分类器则充分利用了时序数据中的时序信息。同时,该模型通过使用代价敏感损失函数来解决了不平衡数据集问题。该分类模型在MIT-BIH心率失常数据库、SVDB和NSTDB这三个数据库上进行了实验。最终实验结果证明该基础心电图时序分类模型不仅具有较高的准确性,还具有较高的分类效率。其次,分类模型融合了自适应批量标准化机制实现了小样本心电图时序数据分类,由于源域和目标域的数据分布不一致,直接迁移分类模型会使得分类效果不佳甚至出现负迁移。与其它的迁移学习方法相比,自适应批量标准化机制原理非常简单,它不需要复杂的计算,也不需要增加新参数,就能实现领域自适应。该改进模型在选定的UCR的心电图数据集上进行了实验,实验结果证明基于自适应批量标准化机制的改进模型能有效解决小样本心电图时序数据分类问题。