论文部分内容阅读
心脏病长期以来都是人类健康的头号杀手。心电图(ECG)提供了心脏功能活动的重要信息,能够帮助诊断一些常见的心脏疾病。传统的ECG自动识别算法通过检测QRS波群、P波、T波等波形,提取出每个波形的特征,然后依据这些特征对ECG进行分类。目前QRS波群的检测比较成熟,但还无法做到对P波、T波的有效检测。随着医疗信息化的推进,医院和社区已经积累了海量的心电数据。时间序列相似性搜索方法可以不再拘泥于特定波形的检测,而是从数据库中查询出最为相似的心电样本,并依此判定测试样本的类别。本文以心电时间序列的相似性搜索为主题,主要研究了心电时间序列的表示方法和相似性度量算法。主要研究工作和成果如下:心电时间序列是一种高维度的数据,为了方便存储、查询和挖掘,需要对其进行压缩表示。本文根据心电时间序列的特点,提出了基于残差平衡及边界约束的分段线性回归方法(RBBC_PLR)。该方法利用残差平衡和边界约束两个判定条件,能够有效地识别出趋势变化点,然后利用这些点对整个心电时间序列进行分段。RBBC_PLR在保留心电时间序列基本形态特征的同时,能够更大程度地压缩数据。实验表明,在相同的压缩率下,RBBC_PLR能够保持更小的拟合误差,同时有效地去除了噪声的干扰。心电时间序列经过分段线性表示后,数据从观察值变成了一组分段。为了度量两个分段之间的“距离”,本文定义了“分段之间的转换代价”这一概念。基于“转换代价”,本文提出了一种新的相似性度量算法——基于转换代价的动态时间弯曲算法(Cost_DTW)。实验表明,Cost_DTW能够更加快速、准确地从数据库中搜索出相似的心电样本。本文提出的RBBC_PLR表示方法和Cost_DTW相似性度量算法,加上现有的k近邻分类器,组成了心电时间序列相似性搜索系统。该系统能够更好地实现ECG的自动识别。