分布式聚类算法研究与应用

被引量 : 0次 | 上传用户:sunyanzi168168168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的进步,数字图书馆的社会价值日益凸显,数字图书馆的建设受到了众多国家机构的高度重视。如何在现有资源的基础之上挖掘数字图书中的信息,改进基于内容的数字图书检索是数字图书馆研究的一个重要方面。本文主要研究了分布式聚类技术及在数字图书馆中的应用。数据规模日益增长的今天,大规模数据处理非常有挑战性。许多并行算法已被提出,如基于MapReduce的分布式K-means聚类算法、分布式谱聚类算法等。近邻传播AP聚类能克服K-means聚类算法的局限性,但是对海量数据的处理性能不高。为了有效实现海量数据聚类,利用相似度稀疏化以及层次采样的方法,我们提出了两个基于AP聚类改进的并行算法。在层次采样的方法中先将数据点随机划分为规模相近的子集,并行地用AP聚类采样各子集,然后融合各子集的采样数据再次进行AP聚类,最终用产生的聚类代表为所有数据点指派聚类中心。在人工合成数据、人脸图像数据、IRIS数据等数据集上的实验表明,该算法对数据规模有很好的适应性,在保持AP聚类效果的同时可有效缩减聚类时间。在研究了Hadoop中基于MapReduce的布式计算技术后,本文利用层次采样的方法设计了基于MapReduce的分布式AP聚类算法——DisAP,并验证了DisAP对数据规模的适应性。DisAP已应用到数字图书馆大规模数据挖掘与分析之中,我们设计了针对中草药数字图书的多媒体信息检索框架。该框架首先利用图像处理、特征抽取、关键词提取等技术分析数字图书的内容,‘然后利用爬虫技术收集互联网资源与这些信息进行语义关联,并利用分布式AP聚类技术处理图像数据生成视觉单词来表达图像的特征,最后在这些数据的基础上创建索引构建了数字图书馆中医药搜索引擎。
其他文献
<正>新常态的出现是发展壮大的必然和可持续发展的要求对新常态概念的认识和理解刚刚结束的中央经济工作会议,对当今的经济发展提出了要"认识新常态、适应新常态、引领新常态
管理会计是以企业现在和未来的资金运动为对象,以提高经济效益为目的,以经营管理决策的科学依据为目标,而进行的经济管理活动。但由于企业经营规模小,资本和技术都相对较低和
研究目的:建立一种具有理论基础的城镇商业用地基准地价容积率修正系数编制方法,为宗地评估提供更科学的参数标准。研究方法:基于竞租理论和最大效用原则等理论综合分析房屋
伴随着酒店行业竞争的加剧,从酒店之间的竞争转变成为酒店人才之间的竞争。从目前酒店业从业人才队伍打造的现状来看,缺少人才、没有合适酒店发展的人才、留不住酒店核心人才
随着计算机多媒体技术的飞速发展,非线性编辑被广泛应用于影视的后期制作。然而,随着DV、HD、手机等各种电子数码产品走进千家万户,视频编辑的应用也普及应用到了人们的生活
随着我国城市轨道交通事业的快速发展,列车运行速度不断提高,行车密度不断加大,人工驾驶模式已经难以满足实际列车运行的需要。列车自动驾驶系统(ATO系统)就是为解决该问题而
<正> 毋庸讳言,90年代最突出的文学现象之一,就是“女性写作”命名的凸起。我指的是对这样一种现象的“命名”,而非女性作家的写作本身。因为女性作家并非从90年代才开始写作
在知识经济时代,知识型员工是企业发展的重要资源之一,对知识型员工的管理也是企业人力资源管理的核心。知识型员工不同于传统工业时代的工人,也不同于知识经济时代的非知识
文章把季羡林的散文分为三个时期:解放前、建国十七年、新时期。季羡林散文的感情风格、文体、语言由于受时代的影响,在三个不同时期表现出不同的风貌,显示了鲜明的时代特征
<正>引言2012年12月28日,我校邀请省内20多家友好学校参与了主题为"彰显赏识教育特色,推进‘361·自主合作’课堂改革,追求绿色生态课堂"的研讨活动。笔者作为高三历史组的代