子空间聚类算法中的若干问题研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:mailnewsnow
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是将数据对象分成类或簇的过程,使同一个簇中的对象之间具有很高的相似度,而不同簇中的对象高度相异。聚类分析源于许多研究领域,包括统计学、生物学和机器学习等。聚类分析是数据挖掘中的一种非常重要的技术和方法,是自发的、无监督的学习过程。   随着聚类分析应用的领域扩展和深入,高维数据聚类已成为聚类分析的一个重要研究方向。同时高维数据聚类也是聚类分析的难点,是一个极具挑战性的工作。技术的进步使得数据收集变得越来越容易,导致数据库规模越来越大、复杂性越来越高,如各种类型的贸易交易数据、Web文档、基因表达数据等,它们的维度(属性)通常可以达到成百上千维,甚至更高。但是,受“维度效应”的影响,许多在低维数据空间表现良好的聚类方法运用在高维数据空间上往往无法获得好的聚类效果。   子空间聚类是高维数据聚类分析中的一种有效技术,尝试在相同数据集的不同子空间上发现子空间簇。本文对已有的一些高维子空间聚类算法进行了研究,分析了其中存在的若干问题,改进了相关方法:首先,针对某些算法中需要用户输入阈值识别冗余属性的问题,改进出了一种采用熵比值度量的识别算法。实验结果表明,新的方法能够正确有效地识别出高维数据集中的冗余属性,且对默认的阈值参数性能稳定,不需要用户根据不同数据集设置不同的阈值,减轻了用户负担。其次,针对聚类算法相关操作易受不相关属性影响的问题,在SCA(SubspaceClustering through Attribute Clustering)算法搜索相似兴趣子空间方法的基础上,改进出了一种基于属性相关性分析的子空间搜索算法。实验结果表明,新的方法减少了需要用户输入参数的个数,且对子空间的识别能力更优。最后,针对部分算法需要用户输入簇的数量作为参数的问题,在P3C(A Robust Projected ClusteringAlgorithm)算法挖掘簇核方法的基础上,改进出了一种有效的子空间簇核挖掘算法。实验结果表明,新的方法对簇核的挖掘精度更高,能够正确地识别簇的数量。上述问题的研究,对于提高子空间聚类算法的易用性、高效性、稳定性较为有意义。
其他文献
随着网络通信技术的飞速发展,ASN.1(Abstract Syntax Notation One)语言在各个领域有着广泛的应用。它是一种用来描述结构化信息的标记语言,适合用来描述复杂的协议,是目前电信
学位
光纤通信的诞生成为通信史上的一次重要革命,它极大地改善了传输带宽,光网络技术的迅速发展为Internet日益膨胀的信息流量提供了强大的网络支持。波分复用(WDM)光网络有效地
学位
人脸识别技术是目前生物特征识别中最受人们关注的一个分支,是计算机视觉与模式识别领域非常活跃的一个研究方向。人脸图像的特征提取是人脸识别技术非常重要的组成部分,对于识
学位
道路提取是遥感图像分析、理解和目标提取中的重要问题之一,它在遥感测绘、地理信息系统(GIS)、军事应用等领域都具有重要的价值和意义。遥感图像中信息的复杂性和多样性使道
学位
现今,用计算机模拟物理系统热扩散的数值方法在传热学领域的研究中越来越受到重视。许多大型系统的传热过程分析与换热器的热计算都通过并行计算机的数值模拟实现。但传统上进
近年来,由于癫痫病的高发,癫痫的治疗已经成为了一项热门的研究课题。癫痫病虽然可以由药物治疗,但是,全球大概仍有30%的癫痫患者是抗药性癫痫并终身受其影响;而且,该类抗药性
作为互联网的重要组成部分,校园BBS完善了信息化校园的新型校园形态,成为了师生在日常生活中自由获取信息和交流意见的平台。但是随着意见的扩散和逐步深入,各种观点发生交流
随着无线网络的普及,定位技术的重要性日益显现。室内定位作为定位技术的一个重要分支,具有很大的实用价值,如机场、展厅、博物馆、购物中心、仓库,地下停车场,超级市场等等都需要
学位
信息全球化要求各企业的应用软件之间能协同工作,进行数据或信息的实时交换,同时企业在系统开发中,通过集成不同供应商提供的软件取代由自己独立开发所需软件,可以明显缩短系统开
随着网络技术的飞速发展和下一代网络概念的提出,使得在异构网络平台上实现语音、数据、视频等多媒体业务互通成为可能。SIP(Session Initiation Protocol)协议就是由IETF(The
学位