基于模式相似的子空间聚类算法研究

来源 :河海大学 | 被引量 : 0次 | 上传用户:a563241195
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘研究中最活跃的领域之一,用于将数据对象分组为多个类或簇,使得簇内对象尽可能相似而簇间对象尽可能相异。广泛用在模式识别、数据分折、图象处理、推荐系统以及电子商务等领域中。 本文首先对聚类算法进行了分类、综述和对比。传统聚类算法在低维空间中能够有效地进行聚类,但在高维数据集中,由于其数据的稀疏性,距离的相似性以及存在大量孤立点,使得传统聚类处理的效率和效果都不理想。对高维数据,一般采用特征转换(维度简约)和子空间聚类(维度选择)来解决这个问题。本文第二章对目前提出的子空间聚类算法作出了系统阐述,并分析比较它们各自的优缺点。 基于模式相似的聚类算法pCluster是子空间聚类的一种,与基于距离的聚类模型不同的是,在pCluster模型中,如果两个对象的属性在属性的某个子集上的趋势(模式)表现出一致性,则可判定这两个对象也相似。pCluster算法的主要目的就是发现对象之间这种模式上的相似性。本文第三章分析和实现了该算法,并针对其局限性提出了改进算法。改进算法采用对象块上的MCAS(最大相关属性集,Maximum Coherent Attribute Sets)剪枝代替原算法中的对称MCAS剪枝,合并对象产生聚类时,枚举各前缀树分枝上的属性对,并计算它们在对象集上MCOS(最大相关对象集,Maximum Coherent Object Sets)的交集。实验表明,改进算法的效率和空间开销都较原算法稍优,结果也更加准确。 本文设计了一个基于pCluster改进算法的推荐原型系统,同时验证了算法的可行性。
其他文献
本文对基于H.264和AAC的IP机顶盒若干关键技术进行了研究。文章第一部分论文简要描述了机顶盒的概念及其增值业务,发展IPTV的意义。第二部分介绍了系统构架,所使用的视频压缩标
随着国内物流业的快速发展,物流信息化建设不断深入,企业中信息子系统不断增多,形成一个个的“信息孤岛”,构建信息集成平台,可以使企业各个子系统中的数据实现有效的集成,经营者可
本文对软件无线电技术进行了研究并介绍了软件无线电发送/接收系统中各个模块的设计与实现方法。在此基础上深入研究了高性能的信道编码——Turbo码。 介绍了Turbo码的编
大规模MIMO(Massive MIMO)技术通过在通信系统的基站端装置大量的天线来实现高速数据传输,具有广阔的发展前景,是当前无线通信的研究热点。理论上,随着系统天线数量的无限增加,大
VLC(Visible-Light-Communication)可见光通信使用可见光波段进行数据通信,无需进行频谱授权就能使用,可以有效的拓展宽带通信频谱,解决光通信与无线通信网络的共存与兼容问
在基于ATM实现的B-ISDN中,各种业务的数据被划分成固定长度的信元在网络中进行传输、交换等各种处理,这种在同一个网络中综合实现各种业务是ATM带来的优越性,其代价是在网络
随着移动通信用户数目的快速增长和数据通信质量要求的不断提高,码分多址(CDMA)技术以其固有的大容量和抗干扰力强等特点,成为第三代移动通信中首选的多址方案。由于CDMA系统是
CDMA短信中心主要用于提高CDMA网络的服务质量和网络效率,增加CDMA网的市场竞争力,同时通过CDMA短信中心大力开展短信业务,为CDMA网络带来可观的经济收入。作为移动CDMA系统的重
现实中的很多复杂系统都可以通过复杂网络进行描述,为了对复杂系统进行深刻的理解,进而解决现实中存在的问题,人们不断对复杂网络许多特征进行深入研究,这些特性包括统计特征
在数字移动通信的技术及应用迅猛发展的今天,为了满足人们对各种移动通信业务,特别是宽带数据通信业务的需求,移动通信必须改善通信质量,尽力满足人们的需求。 分集技术是对抗