基于密集子图的聚类分析及其应用研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:w19870602
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,伴随着互联网时代的数据大爆炸,面向大规模、高噪声数据的快速聚类分析技术逐渐发展成为了数据挖掘和机器学习领域的热点研究方向。聚类分析技术有着非常广阔的应用前景,被普遍应用于模式识别、机器学习、图像检索、计算机视觉、数据可视化、知识发现,以及数据统计分析等多个领域。各个不同领域中的多样化的应用需求催生了种类繁多的聚类分析算法。其中,基于密集子图的聚类分析方法通过检测由分析对象构成的相似度图中的密集子图,来实现聚类分析目标。经过多年研究发现,基于密集子图的聚类分析方法通常具有较高的抗噪声性能,但其大规模数据处理能力有限。本文在深入研究基于密集子图的聚类分析方法的基础上,提出了一种基于密集子图的快速抗噪声聚类分析方法。该算法在充分继承密集子图优良抗噪声性能的同时,有效提升了大规模数据处理能力。同时,本文还将基于密集子图的聚类分析算法有效应用于大规模相似图像检索任务中,有效提升了大规模相似图像的检索性能。本文主要研究工作包括:  (1)提出了一种面向大规模、高噪声数据的“近似局部化感染免疫动态聚类分析算法”(Approximate Localized Infection Immunization Dynamics,ALID)。该算法通过检测相似度图中的密集子图结构,在具有高噪声背景的大量数据中快速准确的检测聚类团簇。ALID算法在不损失聚类分析精度的前提下,将原始的“感染免疫动态算法”的计算范围从覆盖整个相似度图的全局范围缩小到仅覆盖一个密集子图的局部范围,从而有效提升了其大规模数据处理能力。理论分析和实验结果充分证明了ALID算法具有很高的运算效率和聚类精度。  (2)提出了一套基于MapReduce框架的“并行局部化感染免疫动态聚类算法”(Parallel ALID,PALID)。该算法充分利用ALID算法的局部化运算特性,将ALID算法与MapReduce并行框架相结合,进一步提升其大规模数据处理能力。PALID算法在时下较为热门的Spark并行处理平台(https://spark.apache.org/)上使用Java语言实现。实验结果表明,PALID算法利用8个工作实例处理5千万SIFT特征数据仅需2.29个小时,相对于单个工作实例实现了7.5倍的并行加速比。  (3)提出了一种新的“基于密集子图的抗噪声视觉单词词典生成方法”,用于解决视觉单词生成过程中面临的“数据规模大”和“数据噪声高”的两大实际问题。该方法利用密集子图的良好抗噪声性能有效提升了视觉单词的视觉描述能力。同时,该方法还利用K叉树索引结构有效提升了聚类分析效率,从而满足了视觉单词词典生成过程的数据规模要求。大量实验结果证明,基于密集子图的抗噪声视觉单词词典具有很高的视觉描述能力,能够有效提升相似图像检索系统的精度和效率。  (4)提出了一种“基于密集子图的局部相似图像检索算法”。该算法首先将视觉单词之间的空间分布一致性构建到精心设计的“空间分布一致性图”中。然后,利用基于密集子图的聚类分析算法实现了视觉单词匹配对的空间验证,从而有效提升了局部相似图像的检索性能。我们以此算法为原型,实现了一套完整的大规模相似图像检索系统,并顺利上线(http://vipl.ict.ac.cn/isia)。在多个图像检索标准数据集上的大量实验结果表明,该算法在检索局部相似图像方面的性能十分出众。  综上所述,本文针对基于密集子图的聚类分析算法展开了深入研究,提出了一种新的面向大规模、高噪声数据的聚类分析检测算法,及其并行化实现。同时,将基于密集子图的聚类分析算法成功应用到大规模相似图像检索任务中,有效提升了图像检索性能。
其他文献
随着计算机网络的迅速普及,网络教育已成为现代教育的一个重要分支,并且正发挥着越来越重要的作用。网络教育软件的设计也随着软件技术的发展不断更新、提高,无论是在安全性、可
网络环境下的分布式系统是目前计算机软件研究和开发的热点和主流,由于分布式软件系统其固有的分布式特性、异构性和自治性,使得分布式系统的开发比较困难。大量的实践表明,集成
本文从理论上分析了真实感图形绘制技术两种算法——光线跟踪算法与辐射度算法,阐述并研究了这两种算法各自的绘制原理,讨论二者在模拟真实感实体颜色的渗透现象上的不同,引出本
在移动网络发展的今天,GSM、CDMA、PHS、WCDMA、TD-SCAMA等多种网络同时并存,不同的网络有着不同的优势。为了给用户提供不同性价比的服务,增加用户选择服务的自由度和满意度
学位
随着科技的发展,现代计算应用领域也越来越多的需要面临大量的高维数据,如航天遥感数据、全球气候模型、生物数据、图像分类系统、金融市场交易数据等。如何从高维数据中有效的
学位
随着“互联网+”时代的来临,技术边界不断扩张,大数据、云计算、物联网与现代制造、生产性服务等产业的融合创新,引发基础设施层次上的巨变,可以概括为“云、网、端”三部分。越
随着信息技术的不断发展,软件系统的正确性越来越得到人们的关注。程序验证是保证软件系统正确性的一个重要手段。大多数人的关注点放在了软件测试与形式化验证两个方面,且在这
由于泛型构件具有广泛的复用性,我们相信有必要为泛型构件定义内存访问与操作的安全规则(即泛型概念的安全性规则)。然而当前的程序设计语言和编译系统无法高效地检验泛型概念
SIP是专为IP网络设计的多媒体会话控制协议,能发挥下一代网络和3G网的优势,将替代H.323成为开发下一代多媒体应用的基础协议。但SIP没有对网络会议提供直接支持,目前也还没有
手绘草图自然、简便,可表达不完备模糊概念,便于用户进行创造性活动,在模式识别和人机交互等相关领域中受到越来越多的关注。随着手写文字和手绘草图的应用范围迅速扩大,在线手绘