基于云计算与医疗大数据的Eclat算法的优化研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:nacle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着医疗信息化进程的推进,医疗数据日益增长。在此背景下,传统的关联规则挖掘算法在医疗大数据中存在算法运行时间过长的问题。云计算平台的出现为该问题提供了有效的解决方案。本文对关联规则中的等价类转换Eclat算法进行研究与优化,提出了R-Eclat算法,运用Spark云计算框架实现了R-Eclat的并行化,将并行算法应用在医疗大数据上。主要做了以下的工作:1.等价类转换Eclat算法的研究与优化。针对数据库中事务集的规模增大的时候,会出现时间以及空间复杂度增大的问题,利用关联规则中的先验定理,在Eclat算法的连接步中提出了优化方案,减少部分重复的或者非频繁项集,提出了改进算法——R-Eclat。通过与原算法在不同类型的公开数据集上进行对比实验验证R-Eclat算法的有效性。REclat算法比原算法具有更快的运行时间,算法运行效率最高提升了20%;对比稠密型数据集,R-Eclat算法优化效果在稀疏数据集上更为明显。2.基于Spark RDD的R-Eclat算法并行化研究。针对算法在串行环境下存在的问题,使用了Spark RDD算子对R-Eclat算法提出了并行化方案,该算法在R-Eclat算法在挖掘频繁项集的交并操作过程中加入了一个三角累积矩阵,优化了候选频繁项集的筛选操作。然后在搭建好的Spark集群,实现了并行化的R-Eclat算法。通过对比同样基于Spark的YAFIM算法以及改变集群的计算节点个数进行实验,在算法效率上,R-Eclat算法比YAFIM算法有一定的提升,同时R-Eclat算法在Spark集群环境中具有良好的计算节点可拓展性。3.并行化的R-Eclat算法在糖尿病数据集中应用。针对算法使用三角矩阵作为累加器的特点,将数据集的属性项映射到对应的项编号表上。将数据集拆分为不同规模大小,与串行环境下的算法进行对比实验。实验结果表明:当数据规模越大时候,算法的效率提升效果越明显;挖掘出的关联规则表明:糖化血红蛋白的检测能够判断糖尿病患者是否需要再次送院治疗。
其他文献
为加强数据主体对个人数据的控制能力,避免数据锁定,欧盟基于对作为基本人权客体的个人数据和隐私的高度重视,在《一般数据保护条例》第20条新增数据可携权。数据可携权的权
新确立的五级三类国土空间规划体系中,海岸带规划是在海岸带区域,贯彻落实陆海统筹战略,对海岸带国土空间作出专门安排的专项规划。基于国土空间规划体系下青岛市海岸带的工
研究背景及目的颅内动脉瘤是指先天发育异常或后天损伤所致颅内血管壁的异常膨出,动脉瘤破裂是蛛网膜下腔出血的主要原因,具有较高的致死率和致残率,30d内患者的死亡率高达45
  北斗卫星导航系统全球组网的部署为更广泛、更精准、更智能的北斗行业应用提供无限可能。文章介绍了北斗卫星导航系统的发展历程、服务类型及精度指标,分析了北斗卫星导航
<正>1994年~1997年1994年1月,国务院发出通知,任命张人为为国家建筑材料工业局局长,免去王燕谋的局长职务。2月,国务院办公厅发出通知,国家建材局的职能设置、内设机构和人员
阐述了常用汽车生产轻量化材料的加工工艺方法,并详细介绍了其工艺分类、工艺原理以及工艺特点,指出了加工工艺的技术难点,最后提出了汽车轻量化研究的热点和发展趋势,对轻量
从面向全体学生的教育教学原则出发,正视学生因为各种原因造成的学习上的实际差异,尊重学生的不同学习特质,从激发学生的学习潜力入手,进行有针对性的差异教学。根据学生的实
近年来,深度学习技术的迅猛发展为医疗大数据的变革带来了机遇。由于医疗数据的复杂性,深度学习方法的在医疗领域的应用研究过程也充满了挑战。时间序列数据作为医疗数据的重
差异教学是一种有别于传统"分班制"的教学方法,其尊重学生之间客观存在的能力差异,更加科学有效,旨在帮助所有学生都能得到一定成长。文章分析了小学数学教学中差异产生的原
苏州博物馆自2012年至今打造了一系列以古代书画为主的极具本馆个性与特色的展览。这些展览是根据苏州的城市精神与气质,结合苏博书画藏品状况而量身定制。扎实的学术研究是