基于MapReduce的医学数据并行聚类算法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:youthboy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当面临大量的统计数据时,传统的k-means聚类算法需要大量的距离计算和内存空间来处理这些数据,导致时间和空间复杂度太高,无法满足海量数据分析的要求。此外,随着互联网技术的飞跃发展,在医学领域积累了大量的医疗数据,如何使用数据挖掘技术精确和快速提取出人们感兴趣的信息成为当前研究的一大热点。因此本文的研究重点是在保证精确度的条件下更快速的从海量医疗数据里提取信息。本文基于MapReduce分布式并行计算框架提出了一种基于MapReduce改进的并行k-means聚类算法,以对医疗数据进行聚类分析,挖掘出疾病与药品之间的关系。具体工作如下:首先,分析了传统k-means聚类算法的缺陷,其缺陷主要表现为在每次迭代过程需要进行大量冗余距离计算。为此,提出了一种简化模型来简化非聚类中心点与其他聚类中心点之间的距离计算。根据聚类过程中存在的极端点,提出了使用曼哈顿距离代替欧氏距离来计算极端点和中心点之间的距离,以减少极端点和中心点的距离计算量。其次,由于k-means聚类算法的中心点选择对聚类结果有较大影响,为此,在第一次迭代时中心点从数据库中选择出的k条记录,每条记录代表着唯一一种疾病,剩下迭代都采用所有点的平均值为依据来选择新的中心点,从而保证最终聚类结果的准确性。最后,根据提出的改进策略,提出了一种基于MapReduce的改进并行k-means聚类算法。借鉴MapReduce并行计算框架上的开源实现,本文实现并比较了基于MapReduce并行计算框架改进的k-means聚类算法(IMR-KCA)、Mahout中的k-means聚类算法(Mahout-KCA)和传统基于MapReduce的k-means聚类算法(MR-KCA)。实验结果表明基于MapReduce并行计算框架改进的k-means聚类算法在可靠性、效率和可扩展性等方面较其它同类算法更优。
其他文献
当MOSFET特征尺寸缩小到10纳米节点后,基于硅的CMOS技术将趋于理论极限,而高迁移率沟道材料(如Ge和Ⅲ-Ⅴ族半导体)最有可能替代应变硅沟道。其中,(In)GaAs化合物半导体具有高
为研究3种不同的犬离体肺保存方式对支气管肺泡灌洗液中肺表面活性物质的影响。随机将30只Mongrel犬分成3组,为体外循环灌注组、间断压力灌注组和单纯低温保存组,每组10只。
做好电力规划,既可以提前预测在施工过程中可能遇到的难题,保证施工的顺利开展,也可以促进地方电力建设的发展。所以,提前做好电力规划在电力建设过程中扮演着重要的作用。文
目的通过对调查研究的临床资料及结果进行分析,探讨PCOS伴高雄激素血症或合并高胰岛素血症患者的好发体质、中医证型分布规律及相关影响因素,并对其进行对比分析,以期对临床
本文对现阶段教师在初高中衔接教学中出现的一些误区作了分析,并指出自己在教学实践中摸索出的相应的解决措施.
蓝牙技术是一种用于个人区域网络的低成本、低功率的无线通信技术 ,主要包括基带芯片和协议栈两个部分。分析了蓝牙协议栈的功能和结构 ,提出了实现该嵌入式协议栈的软件结构
目的总结分析产前心理护理对产妇分娩方式的影响。方法将80例产妇随机分为2组,各40例。对照组给予产科常规护理,观察组在常规护理基础上进行产前心理护理。观察比较2组产妇产
<正> 继续降低死亡率,延长人们的寿命是在控制人口数量,提高人口素质的人口政策中,应努力争取的一个目标。随着生育率的降低,我国人口老化日趋明显,因此,对死亡现象的研究在
由9部委联合举办的全国首次非物质文化遗产保护成果展览及演出活动,成了近日各大媒体争相报道的主题,日前参观人数已达15万多。我区的蒙古族长调民歌,作为我国目前仅有的4个世界
报纸
<正>在高考的立体几何问题的处理中,很多学生在听老师的讲解过程中,重点关注了老师使用的性质、解答的过程、形成的结论,而忽视了老师的分析、思路的产生、辅助线的连接,从而