基于熵的二元数据聚类算法的研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:xxziliao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机应用的普及,信息系统产生的数据量日益增大,迫切需要高效的数据挖掘工具,从大量原始数据中寻找有价值的知识模式。聚类分析是数据挖掘的重要工作之一。二元数据是一种只有0和1两种状态的数据类型,常见的二元数据类型有购物篮数据、文档数据等,其维度往往高达成千上万。如何高效地从二元数据中寻找潜在的、自然存在的聚类簇,这是当前聚类研究的热点。   本文对二元数据聚类分析展开研究,目的是寻求高效的二元数据聚类算法。通过分析二元数据高维稀疏性的特点,采用子空间聚类技术进行研究。在已有的二元数据聚类算法--基于有限混合伯努利模型的聚类算法的基础上,本文改进出一种基于熵的算法--ESCB(Entropy basedSubspace Clustering of Binary Data)算法。改进的主要方面有:①针对在二元数据空间中,传统的基于距离的相似性度量方法导致点与点之间相似度分辨能力下降的问题,本文定义了一种相似性度量方法,有效地解决了二元数据相似性度量的问题;②通过对基于有限混合伯努利模型的二元数据聚类算法的研究,针对算法需要用户自行设定簇的个数作为算法的初始参数,致使算法应用性受到局限的问题。本文使用了改进的初始化方法用来初始划分数据集,并且利用熵对初始划分进行质量评价,进一步判断初始参数是否达到最优,最后实现了无参聚类。   实验表明,该算法能够有效地发现二元数据空间中的聚类簇,并且为每个簇指定相应的属性空间。同时,与基于有限混合伯努利模型的聚类算法相比,改进后的方法使得聚类算法在时间复杂度、聚类质量、无参化等性能得到了改善。
其他文献
彩铃业务是移动运营商的一项重要增值业务。当前由于彩铃用户普及率趋向饱和,用户活跃性降低,运营商为吸引用户使用和更新彩铃,经常开展各项彩铃营销活动向用户推荐铃音,但由
基于内容的图像检索技术(Content-based Image Retrieval,CBIR)是从20世纪90年代开始兴起的一种新的检索技术,它自动提取图像的颜色、纹理和形状等视觉特征作为索引来进行检
学位
视觉目标跟踪是计算机视觉领域的重要课题。面对跟踪过程中来自自然场景多种复杂变化的干扰,当前视觉跟踪算法由于其普遍采用的模型驱动模式的固有缺陷,算法的准确性和鲁棒性
寻求大型稀疏线性方程组的高效并行解法是当前大规模科学计算中亟待解决的热点问题。Krylov子空间算法是求解大型稀疏线性方程组最流行和最有效的迭代方法之一,其并行计算主要
学位
随着高速网络应用的日益广泛,拥塞控制机制的研究变得越来越重要。拥塞控制至少应该包含两部分:首先是要有源端算法响应路径中的拥塞,动态的调节数据发送速率;另一方面,要有一个中
学位
数学表达式中不仅包含符号,而且还含有由这些符号组成的多种运算结构。实现对此类信息的检索,无疑会有利于为用户提供更加丰富的检索数学信息的途径。本文通过分析La Te X格
频率规划是无线网络优化中的重要环节,规划结果直接影响到通信网络的干扰和性能。在无线网络日益复杂的今天,网络规模不断扩大,小区半径不断缩小,在容量、质量的要求下,频率规划也
学位
随着无线通信技术的发展和便携设备的不断普及,人们对新的移动通信网络的需求与日俱增。作为一种多跳、无中心、自组织网络技术,Ad hoc网络变得越来越重要了。目前其研究工作
学位
随着Internet的普及和应用,电子商务以其成本低廉、便捷、快速、不受时空限制等优点风靡全球。电子商务为用户提供越来越多选择的同时,其结构也变得更加复杂和庞大。一方面,用户
学位
进化规划是一种随机优化方法,它的目标是通过进化达到行为智能化。但在最初的发展中,进化规划并未得到足够的重视。直到20世纪90年代,进化规划方法得到改善,并作为进化算法的