论文部分内容阅读
脉诊是中医四诊之一,是中医诊断疾病常用的方式。脉诊包含丰富的病理信息,且是一种无痛无创的诊断方式。“脉为医之关键,医不察脉,则无以别证,证不别,则无以措治”(徐春甫《古今医统》),由此可以看出脉诊在中医中的地位。随着近几年人工智能的兴起,机器学习与医学诊断逐渐的结合,在中医方面也促进了脉象诊断的发展。在实际场景中,脉象数据存在着严重的数据不均衡问题。直接基于不均衡的脉象数据训练分类器,容易导致分类器对少数类脉象信号样本分类效果不佳。然而,在现实社会中,人们倾向于关注少数类脉象信号样本所对应的疾病,例如健康和癌症两类样本,癌症更加受人们重视。如果分类器不能很好地识别少数类疾病样本,将其误分为多数类样本将导致很大的损失。基于以上问题,本文通过分析脉象信号的特点,从特征选择、脉象信号不均衡处理、特征融合、脉象信号多分类等方面进行研究。在脉象信号特征选择方面,利用PCA算法对脉象信号进行降维,然后利用类别可分性准则对脉象信号进行特征选择,以此得出最优的特征集。在不均衡脉象信号的处理方面,主要从数据层面和算法层面两个角度解决。在数据层面,本文对基于遗传算法的下采样方法进行了改进,将遗传算法中衡量染色体适应度值的弱分类器改进为适合脉象信号的强分类器。为了选择信息丰富的多数类脉象信号样本,改进后的算法试图最大化原分类器的性能,最小化原始多数类脉象信号样本与下采样后多数类脉象信号样本间的损失。在算法层面,本文对固定近邻引力算法进行了改进,改进后的算法的主要思想是将训练集中的脉象信号样本看成有质量的实体,实体之间具有引力作用。通过利用脉象信号测试样本的K近邻点对其的引力总和来判定测试样本的标签。通过本文实验验证,这两种改进后的算法能够在一定程度上提升不均衡脉象样本的分类性能。利用多重集典型相关性分析方法将脉象信号的Gabor特征、STFT特征、脉象二维矩阵特征和wavelet特征进行融合,并通过一对一多分类法、基于无向图的多分类法和基于纠错编码的多分类法完成了脉象信号样本的多分类实验。