数据挖掘中分类分析的策略研究及其生物医学应用

来源 :南方医科大学 | 被引量 : 3次 | 上传用户:h123456p
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
背景数据挖掘是综合利用了统计学、数据库和人工智能技术,从海量数据中提取知识和信息的一门技术。据报导,在我国生物医学中仅有不足10%的数据用来分析。与此同时,在生物医学数据资源中数据挖掘方法学研究是相对匮乏和滞后的。当前,数据挖掘已成为一个具有迫切现实需要且很有前途的热点研究领域。随着生物医学数据量的急剧增涨及其数据的特殊性,需要加大数据挖掘的方法学研究。在生物医学领域,分类方法应用非常广泛,可应用于影像学的图像分类处理;病理、检验、肿瘤等学科进行辅助诊断和识别;基因芯片、蛋白质芯片等微阵列数据分子生物学技术诊断;中医症侯特征分类;人寿保险;预测和自动控制等方面。因此,如何利用分类分析从大量数据中智能地、自动地提取出有价值的知识和信息的研究,具有十分重要的现实意义和广泛的应用前景。目的应用Monte Carlo方法比较数据挖掘中分类分析的八种方法,探讨不同分类方法的特点及在特定数据条件下的优势与不足,据此提出数据挖掘中分类分析的策略,为数据挖掘的实际应用提供依据。方法选择八种分类方法,即判别分析中的线性判别(Linner DiscriminantAnalysis,LDA)、二次判别(Quadratic Discriminant Analysis,QDA)、K-最近邻法(K-Nearest Neighbors,KNN):logistic回归;决策树中的CHAID(Chi-squareAutomatic Interaction Detector,CHAID)、C4.5、CART(Classification and RegressionTrees,CART)及BP神经网络(Back Propagation Neural Net-Work,BPNN)。采用Monte Carlo模拟研究对前述八种方法进行比较。所有模拟数据的目标变量设置为二分类,预测变量数目设置为3。考虑7个可能影响分类结果的因素,依次为:①预测变量的分布类型;②样本量大小;③组间协方差的比率;④组间样本量的比例;⑤两组间的效应量大小:⑥变量间的多重共线性;⑦先验概率。预测变量的分布类型考虑4种情况,即①多元正态分布;②多元偏态分布(本研究设置总体偏度系数f1=2.0、峰度系数为γ2=7.0);③混合型分布,即X1为正态分布变量,X2为偏态分布(总体偏度系数γ1=2.0、峰度系数γ2=7.0),X3为二分类计数属性变量;④所有预测变量均为二分类计数属性变量。本研究中两组样本量之和分别设置为60、100和400。组间样本量比例设置为50∶50、25∶75与10∶90。组间协方差比率设置为1∶1、1∶4及1∶8。组间效应量大小设置为0.2、0.5及0.8。在模拟中对三个预测变量总体间的相关系数ρ均设置为0.3。对于多重共线性的探讨,设置X1与X2总体间的相关系数ρ分别为0.6、0.9,与X3的相关关系不变。初步模拟时先验概率均设置为先验概率与样本量比例相等,而后设置组间先验概率相等(0.5∶0.5)以及先验概率为0.25∶0.75作为对比。方法间性能评估所用指标为总的错判率、灵敏度、特异度及ROC曲线下面积。对各种条件下数据模式进行2次随机抽样,一个样本作为训练集构造模型,另一个作为测试集验证模型。而后重复上述操作1000次,计算测试集数据错判率、ROC曲线下的面积、灵敏度及特异度的均值用以评价模型性能。结果1不同数据分布类型①多元正态分布,组间协方差相等时,LDA最优,其次为logistic回归,决策树法较差。相对而言,参数方法较之非参数方法要优。当数据为正态分布,组间协方差不等时,QDA最优,次之为非参数法,LDA与logistic回归较差。②多元偏态分布,组间协方差相等时,决策树及BP神经网络较优,LDA、QDA、logistic较差。偏态分布,组间协方差不等条件下,决策树法、KNN及QDA较优,LDA与logistic回归较差。③混合分布,组间协方差相等时,决策树及logistic回归较优,三种判别分析较差。组间协方差不等条件下,决策树法较优,LDA与logistic回归较差。④当数据为分类分布时,决策树与logistic回归较优,三种判别分析及BP神经网络较差。2协方差对分类的影响组间协方差不等,对于参数方法影响较大,尤其是QDA及logistic分析。较大协方差组错判率大,较小协方差组错判率小,而且协方差比例越不均衡,这一趋势愈为明显。以正态分布为例,当协方差为1∶4时,两组错判率比值为1.14~2.30;在协方差为1∶8时,两组错判率比值为1.10~3.80,KNN、BP Neural表现更为明显。3样本量及样本量比例对分类的影响当诸如数据分布类型、效应量、协方差不变时,随着样本量的增大,错判率减少,同时ROC曲线下面积增大。以正态分布协方差相等条件为例,样本量增大,错判率减小2%~11%,最为敏感的方法为BP神经网络,最不敏感的方法为KNN。样本量对分类效果的影响不如协方差影响大。样本量比例的不均衡对错判率的影响较大,以先验概率相等,正态分布、协方差相等条件下模拟结果为例,样本量大组(larger)错判率低,样本量小组(smaller)错判率大。如样本量比例10∶90条件,larger组下降了10%~98%,smaller组增大了17%~83%。下降的幅度高于增大的幅度,即使总的错判率减小,是以牺牲灵敏度为代价。4效应量对分类的影响当数据分布类型、组间协方差,样本量一定的条件下,效应量越大,错判率减少,同时ROC曲线下面积增大。以正态分布,等协方差,等样本量条件的模拟结果为例,各方法都有不同程度的改变,当效应量由0.2增大为0.8时,错判率减小了30%~55%。LDA及logistic回归尤为明显。效应量对错判率的影响较大。5共线性的影响随着共线性程度的增强,错判率增大,ROC曲线下面积减小。相关系数由0.6增至为0.9时,错判率增加幅度并不大。以正态分布、等样本量比例及协方差比率为1:4条件为例,当相关系数由0.3增至0.9时,错判率增大了1.36%~9.44%。出现这样的结果,估计在条件设置时仅设置了X2、X3有较强相关性有关。6先验概率的影响先验概率对错判率的影响很大,以正态分布为例,当样本量比例相等,先验概率为1:3,较大概率组错判率显著减小,降低为先验概率1:1条件的1.48~8.57倍。而较小概率组错判率增大,与先验概率1:1条件相比,增大为1.35~2.94倍。当先验概率设置为与样本量比例相等时,较之先验概率不等但样本量比例相等条件,又加剧了前述趋势。此条件下,较大概率组错判率降低为2.15~8.90倍,较小概率组错判率增大为1.59~2.95倍。显著降低了灵敏度。7实证分析依模拟结果为理论指导,我们将分类方法应用于三个实际医学资料。其一,对心肌梗塞数据建立了二次判别分类模型。其二,联合应用logistic回归与BP神经网络对脂肪肝数据构建了分类模型。最后,又将CART法应用于糖尿病数据探索其影响因素并建立了分类模型。结果表明,各模型与数据吻合较好,可应用于医学实际。结论在所研究的八种分类方法中,每种方法或多种方法的组合均在特定数据条件下体现出各自优势,因此可依据本研究的结果制定分析策略。首先,对数据进行预处理,即数据清洗、数据集成、数据变换和数据归约。第二,进行分类分析时关注数据的分布类型及其协方差的情况,而后进行方法的选择。当数据为多元正态分布,组间协方差相等时,可选择LDA及logistic回归。组间协方差不等时,可选择QDA。偏态分布,组间协方差相等时,可选择决策树及BP神经网络。组间协方差不等时,可选择决策树法、KNN和QDA。当数据为混合分布,组间协方差相等时,决策树及logistic较优,组间协方差不等时,决策树法较优。当数据为分类分布时,可选择决策树与logistic回归。
其他文献
和平解放西藏是中国及西藏民族历史上一次重大历史变革。它有着深刻的文化基础,即中华文化和西藏文化包含的佛教的"和"、和谐的思想;有着深刻的理论基础,这既包括马克思主义
随着单体式应用架构维护困难等弊端日益凸显,微服务架构被越来越多的开发者所使用,并且为了解决单体式架构在开发使用过程中面临的挑战,提出了基于微服务架构的分散治理服务
面对日益激烈的就业竞争,如何提高大学生的综合竞争力,已经成为各大高校为之努力的方向。作为教学第一线的老师,在这场努力中毫无疑问起着关键性的作用,一位好老师应该具备的
【正】 目前,考核企业流动资金周转速度指标,是对流动资金周转次数或流动资金周转天数的考核。现行的流动资金周转速度计算公式:
国际社会的无政府状态、系统成员之间实质上的不平等关系以及以实力界定并分配利益是疑惧产生的基础;国际规则与国际关系行为主体间的相互依存只能纾缓疑惧的程度,由于国际规则
<正> 本人从1991年3月~1994年10月收治震颤麻痹66例,其中运用中西药结合治疗40例,获得较好效果,现报告如下:1 一般资料震颤麻痹66例,年龄在45~74岁之间,大部分终
目的:探析结肠癌患者应用改良右半结肠切除术的临床疗效。方法:2013年1月-2017年12月收治结肠癌患者81例,将所选患者分参考组(n=45)和治疗组(n=46)。治疗组患者应用改良右半
著名教育家罗素曾说过,品格教育在孩子6岁之前就已经基本完成,6岁以后学校的教育只是在原有基础上起巩固作用。“五岁成习,六十亦然”,品格的养成是从小塑造并基本定型的,学
<正> 坚持对外开放政策是发展我国经济建设的重要保证。一国的外汇体制是该国对外经济关系的集中反映。就此而论,我国的外汇体制与我国的对外经济关系是否协调,是否能促进对外经济的发展,这是关系到开放政策成败,进而关系到我国能否在本世纪末实现四个现代化的战略目标的重要问题。我国现行的外汇体制是由外汇收支计划、外汇管理制度和汇率制度组成的。其中,外汇收支计划处于核心地位。外汇管理制度则是实现外汇收支计划的一种行政手段。至于汇率仅仅是用作编制计划和统计、核算的一种计量单位。这种按苏联模式从五十年代遗留下
问题提出  社会需求是技术发展的起点,而技术价值的社会实现是技术发展的归宿.从起点到归宿,完成了技术发展的一个周期,形成了经济的、政治的或文化的后果,对社会产生了种
期刊