高维数据的聚类及离群点检测算法的研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:yellowfly1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是在海量的数据中发现事先未知的、隐含的且能被人们利用的模式和关系,这些关系可以指导人们对未来的行为进行预测。在现实生活中,我们经常遇到大量的高维数据,例如商场的购物篮数据、文档数据、Web使用数据以及多媒体数据等等。正是因为高维数据的普遍存在,对高维数据挖掘进行研究有着非常重要的意义。 聚类分析是在数据挖掘中经常使用的方法。但是传统的聚类方法在高维数据上应用时遇到了各种问题,随着数据维度的提高,高维索引的性能迅速下降。因此,高维数据的聚类方法成为数据挖掘方面的研究热点之一。对高维数据的大量研究表明,某些高维数据的属性之间存在相关性,对于高维数据可以通过属性选择等技术去除冗余维度,在原始数据的子空间内进行聚类挖掘。 本文针对聚类分析的热点和难点问题——高维聚类展开研究,目的是寻求有效的高维聚类算法,以及有效的高维数据离群点发现和聚类结果表达等技术。本文研究高维聚类分析的关键技术,在映射聚类的基础上,提出了一种改进的高维数据映射聚类算法。针对高维数据的特点,对基于高维二元数据映射聚类模型中的EM算法进行改进,提出了基于混合柏努利模型的映射聚类方法;在高维二元数据映射聚类的基础上,针对高维数据中的离群点问题设计了一种高维数据的离群点检测算法,即利用属性熵来检测离群点。 理论分析和与相关工作的实验对比表明:本文提出的基于混合模型EM聚类算法在对高维数据的聚类准确性方面具有更大的优势,而针对高维数据的离群点检测算法是合理且有效的。
其他文献
数字家电控制系统的功能是采用一种访问方式,通过控制系统对数字家电的本地监测和管理,实现对家电设备进行远程控制。其好处是方便使用、节约资源及对设备的安全使用。 数字
随着Internet技术的发展,安全协议在电子商务和电子政务中的应用越来越多。与此相应的就是人们对协议的安全性更加关注,尤其是在特殊环境下如何建模和分析安全协议显得尤为重
随着互联网的飞速发展,基于电路交换的公共交换电话网(PSTN)逐步被基于分组交换的下一代网络(NGN)替代。NGN是基于IP网络的电信网络,它的出现是电信网络中的巨大变革。软交换
发展中国家的通信设备市场是通信行业的新兴市场,主要集中在亚洲的大部分国家、非洲的全部、拉美和东欧一些国家,这些国家数量很多,目前占全球通信设备市场的20%多,未来这些
高动态GPS卫星信号模拟器可模拟产生接收机收到的各颗GPS卫星信号,是高动态GPS接收机研制与测试不可缺少的测量设备;同时也可用于系统级GPS仿真实验,为最终确定GPS测量方案提供
近年来,随着RFID技术的快速发展,RFID技术在应用领域的研究也蓬勃开展,使用RFID技术进行室内定位就是研究领域之一。定位技术根据应用地理范围不同,分为室外定位技术和室内定位技
基于内容的图象检索技术是近年来国内外在图象数据库研究中出现的一个新热点问题。本文围绕图象特征提取和图象相似性度量两个问题展开论述。以Gabor基小波提取图象特征理论
基于相似度匹配的移动社交网络(PMSN)在移动设备日益普及的今天,其应用越来越广泛,针对它的相关研究也越来越热门。而在相似度匹配的过程中,对于用户个人属性的隐私保护和对
面向开放域的问答系统是自然语言处理领域中最具有挑战性的热点研究问题之一。随着互联网的飞速发展与普及,信息量的急速膨胀,有效查找和利用这些信息的迫切需求使得信息检索与
随着网络的普及,丰富多彩的网络资源给人们的生活、工作以及学习带来了巨大的方便。然而,信息数量庞大、排列无序以及垃圾信息的干扰等都阻碍着人们充分利用网络资源。为了使