论文部分内容阅读
目的:本文主要是做了疾病危险因素和治疗方法的共现矩阵,并以此为数据对象,利用R和Weka做K-Means分析,用SPSS中的判别分析对比评价R和Weka的适合性。面向四种数据挖掘方法做了对比分析,分析了其优势、劣势,以及适用范围,并提出了协同应用的可行性,帮助研究者选择数据挖掘方法。方法:选取早于2015年的Web of ScienceTM核心数据集中有关肌萎缩性侧索硬化症(ALS)疾病危险因素和治疗方法的文献,下载全信息,做数据预处理,筛选高频关键词,再于Web of Science全部数据库中,以高频关键词和肌萎缩性侧索硬化症为主题词检索出文献量。做危险因素和治疗方法的共现矩阵,以此为数据挖掘对象,以数据挖掘理论为基础,以数据挖掘方法为手段,以R和Weka为平台和环境,对其进行数据分析和挖掘。并利用SPSS内的判定分析,对基于R和Weka的肌萎缩性侧索硬化症的危险因素和治疗方法共现矩阵K-Means分析做对比评价,判断更适用者。结果:(1)根据四种数据挖掘方法的原理和特性,以及在医学领域的应用现状,做了对比分析,并分析了四种数据挖掘方法在医学领域的适用范围和协同应用的可行性。(2)比较四种数据挖掘方法的优势、劣势,明确数据挖掘方法可以用于医学数据的分析,针对不同的分析内容、数据特点、分析的目的,选择合适的数据挖掘方法。(3)通过ALS的危险因素和治疗方法共现矩阵,发现其两两共现情况,明确关联强度,可以为基础实验和临床研究提供提示。(4)对肌萎缩侧索硬化症的致病危险因素和治疗方法共现矩阵做K‐Means分析,发现类内有关联,可在作用机制上有关联,可以作为提示类内没有发现的机制或其他关联,提供参考和预测。(5)利用SPSS中的判别分析功能,评价在ALS的危险因素和治疗方法共现矩阵K-Means分析中,R比Weka更有适用性,帮助工具选择。结论:(1)对比分析数据挖掘方法从而做出对方法的选择,为研究者做相关研究提供帮助。数据挖掘方法可以在一定程度上考虑协同应用,强化效果或弥补缺陷。(2)通过疾病危险因素和治疗方法共现矩阵,可发现危险因素间和治疗方法间的关联强度及其研究现状。(3)R和Weka作为国内外备受青睐且功能强大的数据分析软件,有着它们各自的优势。但其面向不同的数据对象、目的需求、用户时有不同的适应性,应根据自身情况选取更适合的工具。本研究中R和Weka的分类结果不同,利用SPSS做判别分析,发现在疾病危险因素和治疗方法共现矩阵的K-Means分析上R比Weka更具适用性。