论文部分内容阅读
目的:以中医现代四诊仪器为手段,收集临床中医气血辨证资料。运用相关分析和主成分分析两种属性约简方法进行预处理,并运用决策树和神经网络等数据挖掘方法建立中医气血辨证分类模型。寻找更适合中医临床数据的属性约简和数据挖掘方法。
方法:本研究共纳入临床样本376例,将采集到的四诊信息和辨证结果运用SQLServer2005建立数据库。经过数据清洗、转化等预处理过程对数据进行修剪、降噪后得到363例合格样本,应用SPSS13.0软件中相关性分析、主成分分析方法进行属性约简。运用SPSS Clementine11.1软件中决策树、神经网络、Logistic回归建立中医气血辨证分类模型,并用ROC曲线对所建立模型的诊断价值进行评估。
结果:363例中医气血辨证数据中证型主要涉及气虚证、气滞证、血虚证、血瘀证。将原始525个症状体征属性经相关性分析后得到37个属性,而经主成分分析属性约简得到26个属性。运用两种属性约简方法结合三种数据挖掘方法建立六个分类模型。分别得到气虚证、气滞证、血瘀证各分类模型的测试结果和ROC曲线下面积。气虚证中主成分分析结合神经网络模型较好(p<0.05);气滞证中相关分析结合神经网络模型、主成分分析结合决策树模型较好(p<0.05):血瘀证中相关分析结合决策树模型、相关分析结合神经网络模型较好(p<0.05),均有统计学意义。决策树方法还得到71个规则集。
结论:比较两种属性约简方法,认为相关性分析更适合中医临床数据证候研究。运用了数据挖掘中三种方法决策树、神经网络和Logistic回归建立气血辨证模型,我们通过诊断价值比较,可以得出决策树和神经网络方法更适合中医气血辨证模型建立。运用决策树方法建立气血辨证模型,能够生成直观树状结构图,并产生相应的分类规则,更适合中医证候分类的数据挖掘方法,值得临床推广。