基于云计算与医疗大数据的FP-Growth算法的优化研究

来源 :华侨大学 | 被引量 : 0次 | 上传用户:duan01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
众所周知当前科技技术高速发展并不断渗透于各个领域之中,使各个领域的数据量猛增。在此背景下人类基于数据挖掘法发现隐藏于海量数据中有价值的知识;作为数据挖掘领域的重要分支——关联规则挖掘得到了高度重视。近年来该技术日臻成熟。基于海量的医学数据如何有效的运用该方法从中汲取内在关联规则,从而形成有利于预防疾病、评价药物治疗效果、监测临床疾病的信息。总之研究本课题具有重要的意义。当下各类慢性疾病如糖尿病、高血压等及其复杂化的并发症给人类健康埋下了危险的信号,在给患者带来无尽痛苦的同时,加重社会负担。因而做好预防疾病及治疗等相关工作具有重要的意义。然而由于疾病通常具有十分多变、复杂的发病机制,因而无法事先准确诊断。但是任何一种疾病的形成与发展是有一定规律(轨迹)的,通过评估患者状况,有助于合理制定干预措施,继而减少疾病对患者身体的危害。基于数据挖掘技术构建符合预防医学需要的能够帮助医生诊断及临床治疗的慢性分类决策模型具有重要意义。然而现有技术方法在不断增长的医疗数据中凸显不适用性。基于此更应审时度势的运用现有相关技术及分布式环境,从海量信息中汲取有助于防治慢性的数据信息,这是本论研究初衷也是本选题的研究意义之所在。在本课题研究中,将采用FP-Growth算法进行医疗大数据的挖掘和分析。针对传统FP-Growth算法在大规模数据环境下挖掘效率低下的问题,提出了一种改进的FP-Growth算法。其基于频繁项集划分的基本理念划分数据库子集,并基于各项条件直接构建FP-tree能够很大程度的减少占用内存空间的问题。另外以二维表的方式说明支持度及其各项支持度计数情况,有助于实现促进高效化算法运行,减少一次查询服务器、数据库数据的过程。为了进一步优化其性能,通过项合并策略对经典FP-Growth算法的FP-Tree进行剪枝,达到提高算法挖掘效率的目的。并将改进后的FP-Growth算法的分治策略与分布式计算框架Hadoop的Map Reduce编程模式有机结合,进一步提高了大数据环境下的挖掘效率。实验证明,基于Hadoop的改进FP-Growth算法的效率较传统FP-Growth算法有所提高。
其他文献
2015年是"十三五"规划编制之年,创新做好五年一次的国民经济和社会发展规划编制工作,是事关一个地区发展大局的大事。文章以宁海县为例,分析阐述编制"十三五"规划需把握的新
企业的融资问题一直是财务管理研究的热点、重点、难点问题,在既定的市场经济体制条件下,大型企业集团之间的竞争逐渐成为国与国之间竞争的重点,企业集团在现代经济生活中发
论述了浮选技术的作用与发展,分析了反浮选技术的分类、特点和作用机理,介绍了我国反浮选技术研究进展和应用及特点,提出今后加强反浮选技术的研究方向。
由于单循环频率循环估计子估计性能对循环频率的选择有较大的依赖性,使其在实际应用中受到了较大的限制.为解决该问题,文章研究并给出了多循环频率循环时延估计方法,还详细推
近年来,地方题材影视剧的创作逐渐呈现出繁荣的态势,不同地域的影视作品在银屏上争相斗艳,带给大众不同的审美感受。其中,山西题材影视剧也凭借自身的优势在数量和质量上取得了新
转型时期,中国市场竞争愈发激烈,面对环境的复杂性和不确定性,企业打造核心竞争力,保持持续竞争优势的关键在于创新。创新活动通常是个体、团队和组织各层面因素协同作用的结
湘西位于湖南的西北部,拥有三十余个少数民族,民风淳朴;宜人的气候条件,使得那里的物产丰富。湘西远离了繁华都市的喧嚣,当地人民怀着对生命的热爱进行日常的劳作与生产,在此过程中
当前,地方商业银行已成为带动中小企业发展、促进区域经济增长不可或缺的力量,然而地方商业银行与五大国有银行及全国性股份制商业银行相比,无论是在规模还是相对竞争力上都存在
如何在行业报刊采编过程中增强新闻宣传的针对性和实效性、进一步扩大新闻宣传的影响力?本文通过总结多年实践经验,给出一家之言近年来,中国原子能科学研究院(简称“原子能院
<正>1引言发展地空瞬变电磁探测方法是破解深部探测的重要手段。该方法是在地面采用电偶源发射大功率瞬变电磁场,在空中用无人机载探头进行多分量测量,信息采集采用全域、高
会议