论文部分内容阅读
众所周知当前科技技术高速发展并不断渗透于各个领域之中,使各个领域的数据量猛增。在此背景下人类基于数据挖掘法发现隐藏于海量数据中有价值的知识;作为数据挖掘领域的重要分支——关联规则挖掘得到了高度重视。近年来该技术日臻成熟。基于海量的医学数据如何有效的运用该方法从中汲取内在关联规则,从而形成有利于预防疾病、评价药物治疗效果、监测临床疾病的信息。总之研究本课题具有重要的意义。当下各类慢性疾病如糖尿病、高血压等及其复杂化的并发症给人类健康埋下了危险的信号,在给患者带来无尽痛苦的同时,加重社会负担。因而做好预防疾病及治疗等相关工作具有重要的意义。然而由于疾病通常具有十分多变、复杂的发病机制,因而无法事先准确诊断。但是任何一种疾病的形成与发展是有一定规律(轨迹)的,通过评估患者状况,有助于合理制定干预措施,继而减少疾病对患者身体的危害。基于数据挖掘技术构建符合预防医学需要的能够帮助医生诊断及临床治疗的慢性分类决策模型具有重要意义。然而现有技术方法在不断增长的医疗数据中凸显不适用性。基于此更应审时度势的运用现有相关技术及分布式环境,从海量信息中汲取有助于防治慢性的数据信息,这是本论研究初衷也是本选题的研究意义之所在。在本课题研究中,将采用FP-Growth算法进行医疗大数据的挖掘和分析。针对传统FP-Growth算法在大规模数据环境下挖掘效率低下的问题,提出了一种改进的FP-Growth算法。其基于频繁项集划分的基本理念划分数据库子集,并基于各项条件直接构建FP-tree能够很大程度的减少占用内存空间的问题。另外以二维表的方式说明支持度及其各项支持度计数情况,有助于实现促进高效化算法运行,减少一次查询服务器、数据库数据的过程。为了进一步优化其性能,通过项合并策略对经典FP-Growth算法的FP-Tree进行剪枝,达到提高算法挖掘效率的目的。并将改进后的FP-Growth算法的分治策略与分布式计算框架Hadoop的Map Reduce编程模式有机结合,进一步提高了大数据环境下的挖掘效率。实验证明,基于Hadoop的改进FP-Growth算法的效率较传统FP-Growth算法有所提高。