基于MapReduce的医学数据并行聚类算法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户：youthboy

【摘要】

：

当面临大量的统计数据时,传统的k-means聚类算法需要大量的距离计算和内存空间来处理这些数据,导致时间和空间复杂度太高,无法满足海量数据分析的要求。此外,随着互联网技术

【作者】

：

肖锦波

【出处】

：

湖南大学

【发表日期】

：

2004年期

【关键词】

：

聚类算法 k-means MapReduce 冗余距离计算医疗数据

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

当面临大量的统计数据时,传统的k-means聚类算法需要大量的距离计算和内存空间来处理这些数据,导致时间和空间复杂度太高,无法满足海量数据分析的要求。此外,随着互联网技术的飞跃发展,在医学领域积累了大量的医疗数据,如何使用数据挖掘技术精确和快速提取出人们感兴趣的信息成为当前研究的一大热点。因此本文的研究重点是在保证精确度的条件下更快速的从海量医疗数据里提取信息。本文基于MapReduce分布式并行计算框架提出了一种基于MapReduce改进的并行k-means聚类算法,以对医疗数据进行聚类分析,挖掘出疾病与药品之间的关系。具体工作如下:首先,分析了传统k-means聚类算法的缺陷,其缺陷主要表现为在每次迭代过程需要进行大量冗余距离计算。为此,提出了一种简化模型来简化非聚类中心点与其他聚类中心点之间的距离计算。根据聚类过程中存在的极端点,提出了使用曼哈顿距离代替欧氏距离来计算极端点和中心点之间的距离,以减少极端点和中心点的距离计算量。其次,由于k-means聚类算法的中心点选择对聚类结果有较大影响,为此,在第一次迭代时中心点从数据库中选择出的k条记录,每条记录代表着唯一一种疾病,剩下迭代都采用所有点的平均值为依据来选择新的中心点,从而保证最终聚类结果的准确性。最后,根据提出的改进策略,提出了一种基于MapReduce的改进并行k-means聚类算法。借鉴MapReduce并行计算框架上的开源实现,本文实现并比较了基于MapReduce并行计算框架改进的k-means聚类算法(IMR-KCA)、Mahout中的k-means聚类算法(Mahout-KCA)和传统基于MapReduce的k-means聚类算法(MR-KCA)。实验结果表明基于MapReduce并行计算框架改进的k-means聚类算法在可靠性、效率和可扩展性等方面较其它同类算法更优。

其他文献

堆栈高k栅介质(In)GaAs MOS器件电子迁移率模型及界面特性研究

当MOSFET特征尺寸缩小到10纳米节点后,基于硅的CMOS技术将趋于理论极限,而高迁移率沟道材料(如Ge和Ⅲ-Ⅴ族半导体)最有可能替代应变硅沟道。其中,(In)GaAs化合物半导体具有高

学位

(In)GaAs MOSFET高k栅介质界面钝化层迁移率界面态密度

三种犬离体肺保存方式对肺表面活性物质的影响

为研究3种不同的犬离体肺保存方式对支气管肺泡灌洗液中肺表面活性物质的影响。随机将30只Mongrel犬分成3组,为体外循环灌注组、间断压力灌注组和单纯低温保存组,每组10只。

期刊

肺保护肺表面活性物质肺移植

浅析电力规划在电力建设过程中的影响

做好电力规划,既可以提前预测在施工过程中可能遇到的难题,保证施工的顺利开展,也可以促进地方电力建设的发展。所以,提前做好电力规划在电力建设过程中扮演着重要的作用。文

期刊

电力规划电力建设作用措施

多囊卵巢综合征伴高雄激素或合并高胰岛素血症患者中医体质及证型的对比研究

目的通过对调查研究的临床资料及结果进行分析,探讨PCOS伴高雄激素血症或合并高胰岛素血症患者的好发体质、中医证型分布规律及相关影响因素,并对其进行对比分析,以期对临床

学位

多囊卵巢综合征PCOS高雄激素血症高胰岛素血症中医体质中医证型

浅谈初高中数学衔接教学中的误区及应对方法

本文对现阶段教师在初高中衔接教学中出现的一些误区作了分析,并指出自己在教学实践中摸索出的相应的解决措施.

期刊

初高中数学衔接教学教学误区应对方法

蓝牙协议栈软件设计

蓝牙技术是一种用于个人区域网络的低成本、低功率的无线通信技术 ,主要包括基带芯片和协议栈两个部分。分析了蓝牙协议栈的功能和结构 ,提出了实现该嵌入式协议栈的软件结构

期刊

蓝牙技术协议栈嵌入式软件状态机

产前心理护理对孕产妇的分娩方式的影响

目的总结分析产前心理护理对产妇分娩方式的影响。方法将80例产妇随机分为2组,各40例。对照组给予产科常规护理,观察组在常规护理基础上进行产前心理护理。观察比较2组产妇产

期刊

产前心理护理分娩方式剖宫产

2050年以前我国人口死亡率趋势的展望

<正> 继续降低死亡率,延长人们的寿命是在控制人口数量,提高人口素质的人口政策中,应努力争取的一个目标。随着生育率的降低,我国人口老化日趋明显,因此,对死亡现象的研究在

期刊

人口死亡率生育率发展中地区人口普查资料老年人口比重人口老化

蒙古族长调：草原文化的世界品牌

由9部委联合举办的全国首次非物质文化遗产保护成果展览及演出活动，成了近日各大媒体争相报道的主题，日前参观人数已达15万多。我区的蒙古族长调民歌，作为我国目前仅有的4个世界

报纸

打开立体几何的钥匙——辅助线

<正>在高考的立体几何问题的处理中,很多学生在听老师的讲解过程中,重点关注了老师使用的性质、解答的过程、形成的结论,而忽视了老师的分析、思路的产生、辅助线的连接,从而

期刊

正四面体空间直角坐标系定比分点

基于MapReduce的医学数据并行聚类算法研究

与本文相关的学术论文