分类方法在中医辨证诊断应用中的比较研究

被引量 : 26次 | 上传用户:aa654518
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究背景:中医研究领域中,辨证是中医学的核心,也是确保疗效的前提。为了研究中医辨证分类规律,流行病学方法、多元统计方法、机器学习、神经网络等多种方法被引入了研究之中,从而形成了百家争鸣的场面。然而,不同方法会产生不同的分类器,分类器的优劣直接影响数据挖掘的效率与准确性。目前许多涉及数据分析/挖掘方法在中医辨证诊断中应用的研究多局限于研究的方法本身,尚未涉及各种典型数据分析/挖掘方法,较为全面、深入的横向比较;再者,模型评价的方法使用混乱,不规范,因此难以避免出现管中窥豹,只见一斑的片面评价。如何正确评价各种分类方法在中医辨证研究中的应用价值,以及各自的优缺点,以期在分类方法的选择上做出指导,是中医现代化多学科研究中方法学合理应用的前提,是一个有广泛应用前景的研究方向。原发性失眠症的证治规律探讨是目前临床研究的热点,在方法学应用上也千法并举,莫衷一是。本研究以该病为切入点,搭建数据平台。在结合统计学预处理及基于相关性分析、主成分分析、粗糙集方法的属性约简预处理的基础上,应用分类方法中统计方法、机器学习方法及神经网络方法中的典型代表方法:Logistic回归、贝叶斯分类器法、基于规则的分类方法(PARI)、C4.5决策树方法、BP、RBF神经网络方法,并引入概率神经网络方法、支持向量机方法,对原发性失眠的临床数据进行中医辨证分类的研究,以期对各种方法进行横向比较,评估其应用于中医证候分类研究的价值,提出符合中医数据类型特点的数据约简方法、分类方法和模型评价方法。目的:1应用支持向量机、概率神经网络方法建立原发性失眠症中医辨证分类模型,评估其应用于中医证候分类研究的价值,并与其他几种常用分类方法比较,分析比较各种算法的特性,评价其优劣。2比较评估3种属性约简方法(基于相关性分析、主成分分析、粗糙集方法的属性约简)在中医证候数据处理中的应用价值。方法:本研究为横断面调查。根据国内外有关原发性失眠的研究报道、中医理论,建立了包括西医量表及中医证候调查表的《失眠症临床观察表》,调查广州中医药大学第二附属医院大德路总院、芳村分院,神经科内科门诊或睡眠心理专科就诊的原发性失眠病患者。根据观察表的内容应用Epidata4.1a建立数据库录入数据,经过填补缺失值、离散化、归一化等数据预处理后,分别用SPSS13.0中相关性分析(采用Spearman相关系数法计算相关性,并删除相关系数的P值大于0.05的变量)、主成分分析法(筛选特征根>1,公因子方差>0.4的证候信息)和Rosetta软件中基于粗糙集的属性约简方法(基于差别矩阵的粗糙集属性约简)进行数据约简(降维)。采用改进的样本划分法,按照5:1的比例(450例/92例)将数据库进行分割,取随机数字前92例形成验证集,余450例为训练集。然后分别对三种约简方法得到训练数据集进行如下建模:Logistic回归(Forward LR模型、Backward LR模型)采用SPSS13.0分析,贝叶斯分类、基于规则的分类器(PARI)、C4.5决策树方法采用WEKA3.5.7软件,BP神经网络、RBF神经网络、概率神经网络方法采用MATLAB7.0软件的神经网络工具箱,支持向量机方法(多项式核函数模型、径向基核函数模型、Sigmoid核函数模型)采用LIBSVM2.85软件完成。对训练集,分别采用自身回代验证、5倍交叉验证方法对所建立的模型的拟合效果和分类效果进行评价,主要评估指标包括:敏感度、特异度、准确度、漏诊率、误诊率、Youden指数、阳性预测值、阴性预测值、阳性似然比、阴性似然比、一致性检验(Kappa值)、ROC曲线。然后,利用验证数据对模型进行预测性能的前瞻性评价,评价指标:准确率、Kappa值、平均绝对误差、均方根误差。三种约简方法之间的比较主要评估指标有:属性蒸发率、构建模型的计算开销和模型复杂度、所构建模型的分类性能和预测性能。通过上述指标,评价三种约简方法之间以及各种二分类分类器之间的优劣。结果:共收集了原发性失眠病患者共414例,其中128例完成了两个时点的观察,286例完成了一个时点的观察,以时点为横断面,共采集证候断面资料542个,资料之中存在证型重叠。其中肝郁化火证最多,共183例,我们以肝郁化火型为例进行分类器的构建。1原始自变量(包括PSQI指标、症状、体征,除外舌淡红、苔薄白)共95个,结果相关性约简的结果得到包含55个属性的子集,主成分约简方法得到包含33个属性的子集,而粗糙集约简方法得到的子集规模最小,仅包含19个属性。属性蒸发率分别为42.105%、40.000%和65.455%,以粗糙集约简方法最高,由其构建的各种模型效果均优于主成分约简模型,优于或与相关性约简模型相仿。2无论哪种模型,自身回代验证的正确率都高于交叉验证的结果,甚至有的模型可相差接近20%的概率。而进一步使用高自身验证准确率的模型来进行验证集预测时,正确率却明显降低。3 Logistic回归模型:拟合的Backward LR模型各项指标优于Forward LR模型或与之相似,三种约简方法结果所构建的Logistic向前和向后模型,其5折交叉验证ROC曲线下面积差异均无统计学意义。三种约简方法结果所构建的Logistic向后模型,5折交叉验证平均分类正确率为86.222%,ROC曲线下面积平均为0.904,三者差异无统计学意义,平均预测正确率为89.855%。4贝叶斯分类器:三种约简方法结果所构建的贝叶斯分类器,其5折交叉验证分类正确率在79.111%~87.556%之间,平均84.148%,5折交叉验证ROC曲线下面积平均为0.895,相关性及粗糙集约简结果所构建模型与主成分约简结果模型比较差异有显著性意义,预测准确率在83.696%~92.391%之间,平均89.130%。5基于规则的分类器:三种约简结果构建的模型分别建立了5、4、5条规则。规则对训练集案例的覆盖率均较低。自身回代验证结果与5折交叉验证结果相差较大。三种约简结果构建的模型,其5折交叉验证分类正确率在77.778%~87.556%之间,波动较大,平均为83.037%,ROC曲线下面积平均为0.829,相关性及粗糙集约简结果所构建模型与主成分约简结果模型比较差异有显著性意义。预测正确率79.348%~91.304%,平均85.507%。6 C4.5决策树:三种约简结果构建的模型分别建立了含有15、12、10个节点数的决策树模型,训练较快速。但三种模型均只覆盖了若条件成立则阳性结果成立的属性,总体分类能力一般,分类正确率在85%左右波动,5折交叉验证ROC曲线下面积平均约0.834,其中,粗糙集约简结果模型优于其它两种约简结果模型,差异有统计学意义。预测正确率在83.696%~89.130%之间,平均86.957%。7支持向量机:三种核函数模型中,径向基核函数模型分类效果最好,各项指标均优于其它两种核函数模型,其5折交叉验证ROC曲线下面积与Sigmoid核函数模型比较差异有显著性意义,而其支持向量的数量也较少。进行参数寻优后正确率明显提高。相关性约简结果建模分类预测准确率可以达到100%,其它两种约简结果建模分类正确率分别为88.222%、92.222%。5折交叉验证ROC曲线下面积在0.94以上,粗糙集约简结果模型与主成分约简结果模型比较差异有显著性意义。预测正确率在92%以上。8 BP网络:三种约简结果构建的模型分别建立了含有4、3、5个隐节点的BP网络。参数设置较耗时。三种约简结果构建的模型分类正确率在81.778%~89.111%之间,平均85.185%。ROC曲线下面积平均为0.889,其中相关性约简结果优于其它两种约简结果模型,差异有统计学意义。预测正确率波动较大,在73.913%~95.652%之间,平均86.594%,预测误差较大。9 RBF神经网络:三种约简结果构建的模型各自建立了含有3个隐节点的RBF网络。学习速度较BP神经网络快,参数设置较简单,三种约简结果构建的模型,5折交叉验证平均分类正确率88.741%。5折交叉验证ROC曲线下面积在0.89以上,三种模型两两之间比较差异均有统计学意义。预测正确率平均为90.217%。10 PNN神经网络:参数少,运行速度快。5折交叉验证中分类正确率均在86%以上,甚至接近95%,平均为91.111%。5折交叉验证ROC曲线下面积在0.93以上,平均为0.967,其中,主成分约简结果模型差于其它两种约简结果模型,差异有显著性意义。预测准确率均高于90%,平均为93.840%。11根据5折交叉验证AUC曲线下面积大小,结合假设检验结果,将8种模型进行分类效能划分:相关性约简结果建模:SVM>PNN>Logistic、RBF>PARI、BP、C4.5,而Bayes与后两类模型比较差异均无显著性意义,故应介于3、4类之间。主成分约简结果建模:SVM、PNN>RBF、Bayes>C4.5、PARI,而Logistic、BP与RBF、Bayes、C4.5比较差异均无显著性意义,故介于2、3类间。粗糙集约简结果建模:PNN>SVM>Bayes、Logistic、BP、C4.5>PARI,而RBF与PNN、SVM比较差异均无显著性意义,故介于1、2类之间。结论:1粗糙集的属性约简方法能在保持较高质量分类能力的基础上,尽量消除信息系统(决策表)中不必要的知识,得到对证型有较好的分类能力的较小属性集合,一种值得在中医证候数据处理中推广应用的约简方法。2自身回代验证容易高估分类判别的效果,因此实用价值不大,不适于用于客观评价模型效果。而5折交叉验证的结果较稳定,能反映所建立的分类模型的真实分类能力,尤其是对存在干扰的情况下,它能很好的避免分类结果出现较大的波动。建议在今后的研究中尽量采用交叉验证的方法对模型的分类效能进行客观的评价。3与传统的评价指标相比,ROC曲线具有可信度高,描述客观精确,特别是不受数据环境影响等优势,并且能够对两个诊断试验的曲线下面积进行假设检验,结果更直观、客观。2.总体而言,应用的8种模型均有一定诊断价值,其中SVM、PNN、RBF最佳,Logistic、贝叶斯分类器、BP次之,C4.5、PARI较一般。3.Logistic回归模型的评价体系、模型修正与诊断较完善,可以清楚的显示各个自变量在模型中贡献的大小以及作用的方向。但容易受中医证候资料中共线性及强影响点等影响,其预测正确率及误差在8种模型中均处于中等位次。其中Backward LR构建的模型稍优于Forward LR构建的模型,考虑Backward LR法在筛选变量时侧重于向模型中引入联合作用较强的变量,因此对于普遍存在相关性的中医证候数据而言,建议采用Backward LR法构建模型。4贝叶斯分类器容易受频数及先验概率影响,分类效果与Logistic回归相仿。5基于规则的分类器可以产生易于理解的规则以及各规则的强度,但模型分类、预测能力均较差,稳健性较差,因此该模型适于用来抽取规则帮助理解中医证候内涵,但不适于用于分类和预测研究。6 C4.5决策树产生可视化树状图,有助于直观理解各属性在证候判别中的作用大小,对强影响点的干扰具有较好的鲁棒性,但模型敏感度、误诊率、阴性预测值、阴性似然比较低,而漏诊率、特异度、阳性预测值、阳性似然比较高,分类能力一般,预测误差较大。我们认为该模型适于用来形成决策树,帮助直观理解中医证候内涵,但不适于用于分类和预测研究。7支持向量机中径向基核函数模型较适于对中医证候研究数据分析,其分类效果及预测精度均优于多项式、Sigmoid核函数,而支持向量的数量也较少,泛化性好,。因此采用SVM进行中医证候分类研究时,RBF核是一个比较好的选择。SVM可以对中医证候数据构建一个最优超平面,使得非线性可分的中医证候数据在特征空间中得到准确率较高的划分,其分类效果优于其它分类器,而且模型有较好的鲁棒性、泛化能力较好。将SVM技术引入中医证候研究是可行而且有效的。8 BP网络用于中医证候诊断方面学习速度慢、泛化能力差、易陷入局部极小,且中医证候的特征矢量很难获得,证候的诊断准确率不高,因此实际作用较差,推广较难。9 RBF神经网络学习速度较BP神经网络快,参数设置较简单,对中医证候数据有较好的识别分类能力和预测性能,模型较稳健,是一种适用于中医证候研究的方法。10 PNN神经网络参数少,运行速度快,模型较稳健,分类效果及预测精度均较高,仅次于SVM,泛化性能较好,能很好地识别中医证候数据中的分类信息,较理想地完成证候分类及预测的工作,是值得在中医证候分类研究中推广的技术。
其他文献
依托上海市体育局“春芽行动计划”所建立的三线跳远选材指标体系,通过对上海市三线男子跳远运动员各指标的测试,着重分析研究形态、素质指标对跳远选材的重要意义,运用AHP法构
新一轮数学课程改革从理念、内容到实施,都发生了巨大变化。其中,尤其值得注意的是,直到19世纪末20世纪初才发展起来的“向量教学”,以其在物理学、工程学、空间物质结构中的
选材是培养高水平运动员的第一步,选拔潜力大的运动员是整个训练过程中非常重要的一个环节。随着现代跳远竞技水平的不断提高,运动员科学选材问题己越来越引起教练员的广泛关
随着市场经济的进一步发展,城市化的进程越来越快,城市房屋拆迁许可行为在实践中暴露出了许多问题,有的已相当严重。在城市房屋拆迁许可行为实体内容方面,应明确区分两种目的
清朝的宫廷内有若干欧洲画家供职,带来了与传统中国绘画面目迥异的欧洲绘画观念和画法,从而使清朝的宫廷绘画别具风格。此外,这些西洋画家还将流行于欧洲的绘画品类及方法也
期刊
随着中国经济进入中速增长期,特别是近几年来,受国家宏观政策调控、房地产市场紧缩、生产成本提高、环保整治愈加严格等一系列因素的影响,石材企业普遍经营较为惨淡。另一方
2008年29届奥运会将在北京盛大召开,中国男篮将作为东道主在本土征战奥运,有着前所未有的机遇,强大的后盾支持。中国男篮能否突破历史再创佳绩,这是各方人士和广大球迷所共同
针对目前农村饮水安全工程管理过程中存在的问题,文章以永靖县设置饮水工程进行安全管理过程为例分析了其在运行管理过程中出现的问题,并提出了具体问题的解决对策,其目的是
早期秦文化的研究,历来受到学术界重视。但受文献和考古资料所限,对秦人早期历史的研究,还比较薄弱,留有许多空白。随着近年在甘肃、陕西等地考古工作的进一步开展,早期秦文
国有企业高管的积极性发挥程度如何,直接影响到企业的发展和盈利能力。而国有企业高管作为经营性人力资本的所有者,是企业的核心资源,因委托代理关系的存在及其工作过程和工