论文部分内容阅读
目的:选取中医治疗高血压病的临床用药处方作为研究的数据来源,挖掘出具有实用意义的中医辩证用药规律。选择使用K-means聚类算法进行数据挖掘,为解决传统K-means聚类算法迭代次数多,速度慢,复杂度高等问题,对传统算法进行改进,加快算法运行速率。但是医学类数据本身规范性较差,数据量大,因此,提出并行化的在这种聚类理念,将云计算中的分布式并行化计算结合聚类挖掘算法,在分析处理海量数据的问题上,找到解决的新思路、新方法。将K-means优化算法和并行化算法结合,运用到探究中医辩证治疗高血压病的用药规律上,揭示证候与用药间的相关性,并结合中医理论和相关知识,提出高血压病的预防和治疗的合理化建议和想法。方法:将热点高血压病的病例信息建立SQL数据库,使用优化的K-means算法对其用药处方进行聚类分析;使用Visual Studio2010编写程序代码对传统的K-means算法进行优化改进,首先计算数据点到集群中心K的距离,通过保留先前计算数据的方式减少迭代运算,提高算法效率。另外结合Mapreduce编程框架,在VMWare Workstation工作平台上搭建Hadoop平台,实现K-means算法的并行化。将得到的聚类结果结合中医理论知识,进行分析研究,得到有效地高血压用药规律组成。结果:建立现代中医治疗高血压的用药组合数据表。得到运行速度加快的优化的K-means算法,得到基于Hadoop平台的可调用的并行化K-means优化算法。挖掘出15组中医治疗高血病用药组合,根据中医辨证用药特点,挖掘出八组辨证用药的药组,其中单味药草决明、青蒿、木香都对改善并发症有明显效果。结论:K-means算法的优化和并行化改进通过实验验证,能够对算法的运行效率得到很大改善,对传统算法的改进,都是结合聚类原理,提出的新算法,优化的聚类方式,都能够提高运行速度,降低复杂度。得到的高血压病不同证候对应的治疗用药规律组合是符合中医理论知识的,切实可行。