基于属性相关性分析高维数据聚类子空间搜索算法分析与研究

来源 :华南师范大学 | 被引量 : 0次 | 上传用户:dajiange
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高维数据通常有几十甚至成百上千个属性,而很多高维数据的类仅存在子空间内。子空间聚类算法尝试在数据集的不同子空间上探测和发现有意义的簇类。   一种新的高维数据子空间聚类算法SCA[1](SCA,subspace clustering through attribute clustering)无需多次遍历数据集,就可以快速找到高维兴趣度子空间的候选集,然后进行子空间簇聚类。该算法在去除冗余属性基础上,提出一种关系函数的计算方法来度量任意2个非冗余属性的相关关系;SCA算法在关系矩阵上进行属性聚类,避免了分层次搜索的时间开销,能够快速找到高维兴趣度子空间的候选集。SCA算法的效率和子空间簇的寻找能力均优于传统经典子空间聚类算法CLIQUE[3]。   本文在SCA算法及其改进算法[2]研究成果基础上,发现对分别具有密集单元格连续分布与分散分布二种特征的二维子空间属性相关性度量值进行区分时,SCA算法及其改进算法存在属性相关性度量值区分度不够明显的局限性。本文主要针对这个局限性,通过改进属性关系函数计算方法,提高属性相关性区分度,找出真正反映数据空间数据分布的最大兴趣子空间。   经实验验证,本文的改进算法较好地适用于区分分别具有密集单元格连续分布与分散分布二种特征的二维子空间属性相关性。对具有这种分布特征的高维数据集搜索最大兴趣子空间,当采用相同兴趣子空间搜索算法时,本文算法能得到比较全面的最大兴趣子空间。
其他文献
概率图模型能很好处理不确定性,一阶逻辑可以简洁地表示知识,将概率与逻辑整合在同一个表示之中一直是人工智能领域的一个长期目标。Markov逻辑网是公式附加权值的一阶逻辑知识
随着信息技术和计算机网络技术的飞速发展,多媒体数据的生产和分发都实现了数字化和网络化。数字多媒体数据(如图像、文本、音频、视频、三维模型等)的存储、拷贝与传播变得
目前,门户(Portal)在企业中获得了广泛的应用,Portal是一种web应用,主要用于构建分层次、个性化的信息和应用入口,将来自各个信息源的内容集成到一个web页面中,并为信息系统提供统
随着互联网技术快速发展,医学行业大量的文献资料、数据库等资源被分享到互联网上,而这些资源需要通过搜索引擎进行搜索才能找到。通用的搜索引擎使用人群较广,覆盖领域较宽,
近年来,多核技术引领了计算机的发展潮流,成为了当下最为热门的计算技术。多核处理器的技术思想是:将两个或者多个独立的处理器核心封装到一个芯片内部,由多个处理器核心并行
图像的压缩编码是存储、处理和传输图像信息的基础,提高图像的压缩效率一直是人们不断追求的目标。对图像进行压缩编码,目前成熟的做法都是在变换域进行。在变换域进行图像编码
作为当今通信领域的主要手段,智能手机已经成为人们生活和工作中必不可少的通信设备,同时移动通信网络也已经成为了第一大通信媒体网络。随着智能手机,平板电脑等便携式移动
随着这些年来信息技术的发展,人们在获取数据以及存储数据的能力变得越来越强。海量的数据中往往包含了许多有意义的信息,这些时候就需要利用数据挖掘从这些信息中提炼出现实
互联网的高速增长,在给我们的生活带来极大的便利的同时,也让我们湮没在了信息的海洋中,海量的数据已经使得我们寻找相关信息时,很难快捷的发现我们的目标信息。为了克服信息
随着计算机技术的迅速发展,招生考试工作信息化程度不断提高,北京教育考试院每年通过对各级各类考试的组织,积累了大量的考试数据。这些数据隐含着学校教育的真实现状以及学科教
学位