聚类算法在高维数据的应用研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:hanyunba
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于内容的图像检索融合了图像理解以及模式识别等多种技术,能提供有效的检索手段,是目前人们关注的热点之一。如何在庞大的图像库中快速地查找出所需要的图像是图像检索的核心问题,对图像数据库进行预处理并且建立索引有助于实现快速检索。聚类分析是数据挖掘中一种非常重要的技术和方法,可以利用聚类生成的聚类树建立图像数据库的索引,以解决高维数据的索引问题。   现有的CLIMB是一种基于子空间的网格聚类算法,只需要若干次的扫描即可得到聚类的结果,具有很高的效率。通过实验,本文提出了“CLIMB算法可以得到MAFIA算法找到的k-维空间中的类簇”的观点并加以证明,进一步说明了CLIMB算法的有效性。但由于该算法对聚类的划分缺乏密度阈值的控制,导致划分处于一定的失控状态中,随着样本数据的维增加,类簇的个数会越来越多,簇内的样本个数会越来越少。本文通过引入一种基于样本空间关系的聚类有效性衡量方法,并将该衡量方法引入到CLIMB算法中以改善这种失控的状态,同时引入马氏距离使算法对各维的区别更加敏感。在每一步的划分之后,都会对每一个聚类的中间结果进行评估,合并不满足要求的类簇,保留优质的类簇。   通过实验可以看到,划分的过程在改进的CLIMB算法得到了控制,聚类的精度得到了提高,并可以发现任意形状的类簇,而改进的CLIMB算法的时间复杂度介于MAFIA算法和CLIMB算法之间。
其他文献
矩阵特征值扰动问题,主要是研究特征值和特征向量因矩阵元素的变化而产生怎样的变动,即特征值的稳定性是否依赖于矩阵元素,而不是依赖算法。由于在数值计算中,实际得到的数据经常
本文研究了组合保险理论中的固定比例投资组合保险(CPPI)策略。给出了组合价值过程的表达式,分析了其风险特征;然后研究了CPPI策略的一些基本性质,并分析了在连续时间下借贷和带
本文主要以“囚徒困境”为例,通过数值模拟分析复杂网络上的演化博弈行为.文章先简介了基本的经典博弈理论及其不足之处,然后考察无限均匀混合群体的合作博弈演化.再引入复杂社
随着社会不断的发展,人口居住越来越密集,突发事件和异常事件也日益增多,怎样才能对其进行有效的监控,以尽量减少或避免损失显得愈加重要,因此,世界各国政府和学者都开始将目
教育活动是一种培养人的社会实践,而心理健康是根据小学心理发展特点运用有关心理教育方法和手段,培养学生良好的心理素质,促进学生身心全面和谐发展和素质全面提高的教育活
期刊
中国经济导报2012-6-12报道:长期以来,政府对纸品出口退税不断下调,体现出了有关部门对造纸行业的态度。由于造纸行业的特殊性,从资源消耗以及产品附加值上来说不适于做出口
随着素质教育改革的不断深入,高中语文考试中出现了越来越多探究题的身影,因此学生对于探究题的解题能力也被纳入到语文教学的范畴内。一般情况下,我们学生在语文考试中探究
网络优化是组合优化的重要分支,最短路问题在网络优化中占极其有重要的核心的位置,不仅因为其及其各种推广形式在实践中的广泛应用,也因其本身具有极其重要的理论意义。最短路问
本文讨论一类半线性椭圆型方程组的解的存在性以及非线性Schrodinger方程的解的渐近性。   在第二章中,研究如下一类奇异临界椭圆型方程组非平凡解的存在性。   在第三
作为基础教育的小学教育,是奠定学生今后发展的重要阶段,尤其是学生好奇心重,喜欢新鲜事物,是思想品德形成的关键时期.因此,本文主要研究小学思想品德教学中面临的主要问题,