高维数据的聚类及离群点检测算法的研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户：yellowfly1

【摘要】

：

数据挖掘是在海量的数据中发现事先未知的、隐含的且能被人们利用的模式和关系，这些关系可以指导人们对未来的行为进行预测。在现实生活中，我们经常遇到大量的高维数据，例如商场

【作者】

：

康杨

【机构】

：

东北大学

【出处】

：

东北大学

【发表日期】

：

2007年期

【关键词】

：

数据挖掘高维聚类 EM算法二元数据离群点检测属性熵数据库映射聚类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据挖掘是在海量的数据中发现事先未知的、隐含的且能被人们利用的模式和关系，这些关系可以指导人们对未来的行为进行预测。在现实生活中，我们经常遇到大量的高维数据，例如商场的购物篮数据、文档数据、Web使用数据以及多媒体数据等等。正是因为高维数据的普遍存在，对高维数据挖掘进行研究有着非常重要的意义。聚类分析是在数据挖掘中经常使用的方法。但是传统的聚类方法在高维数据上应用时遇到了各种问题，随着数据维度的提高，高维索引的性能迅速下降。因此，高维数据的聚类方法成为数据挖掘方面的研究热点之一。对高维数据的大量研究表明，某些高维数据的属性之间存在相关性，对于高维数据可以通过属性选择等技术去除冗余维度，在原始数据的子空间内进行聚类挖掘。本文针对聚类分析的热点和难点问题——高维聚类展开研究，目的是寻求有效的高维聚类算法，以及有效的高维数据离群点发现和聚类结果表达等技术。本文研究高维聚类分析的关键技术，在映射聚类的基础上，提出了一种改进的高维数据映射聚类算法。针对高维数据的特点，对基于高维二元数据映射聚类模型中的EM算法进行改进，提出了基于混合柏努利模型的映射聚类方法；在高维二元数据映射聚类的基础上，针对高维数据中的离群点问题设计了一种高维数据的离群点检测算法，即利用属性熵来检测离群点。理论分析和与相关工作的实验对比表明：本文提出的基于混合模型EM聚类算法在对高维数据的聚类准确性方面具有更大的优势，而针对高维数据的离群点检测算法是合理且有效的。

其他文献

基于无线网络的数字家电控制系统软件架构的研究与实现

数字家电控制系统的功能是采用一种访问方式，通过控制系统对数字家电的本地监测和管理，实现对家电设备进行远程控制。其好处是方便使用、节约资源及对设备的安全使用。数字

学位

数字家电控制系统Web服务无线控制软件架构无线网络

特殊环境下的协议安全研究

随着Internet技术的发展,安全协议在电子商务和电子政务中的应用越来越多。与此相应的就是人们对协议的安全性更加关注,尤其是在特殊环境下如何建模和分析安全协议显得尤为重

学位

安全协议形式化方法自动工具挑战-应答协议

软交换中SIP模块及其安全方案的设计与实现

随着互联网的飞速发展,基于电路交换的公共交换电话网(PSTN)逐步被基于分组交换的下一代网络(NGN)替代。NGN是基于IP网络的电信网络,它的出现是电信网络中的巨大变革。软交换

学位

SIPNGN软交换摘要认证

ZXC10-MSCVLR信令处理子系统R2模块的研究及实现

发展中国家的通信设备市场是通信行业的新兴市场,主要集中在亚洲的大部分国家、非洲的全部、拉美和东欧一些国家,这些国家数量很多,目前占全球通信设备市场的20%多,未来这些

学位

线路信令寄发器信令R2信令半呼叫过负荷控制

基于SOPC的GPS信号仿真器的设计与实现

高动态GPS卫星信号模拟器可模拟产生接收机收到的各颗GPS卫星信号，是高动态GPS接收机研制与测试不可缺少的测量设备；同时也可用于系统级GPS仿真实验，为最终确定GPS测量方案提供

学位

GPS信号仿真器卫星信号模拟器移位寄存器P码捕获处理器

基于RFID技术的室内定位算法研究及应用系统

近年来，随着RFID技术的快速发展，RFID技术在应用领域的研究也蓬勃开展，使用RFID技术进行室内定位就是研究领域之一。定位技术根据应用地理范围不同，分为室外定位技术和室内定位技

学位

RFID技术室内定位算法中间件系统架构路径规划

基于纹理特征的图象检索研究

基于内容的图象检索技术是近年来国内外在图象数据库研究中出现的一个新热点问题。本文围绕图象特征提取和图象相似性度量两个问题展开论述。以Gabor基小波提取图象特征理论

学位

Gabor滤波器Gauss滤波器单纯形法

移动社交网络中基于相似度匹配的隐私问题研究

基于相似度匹配的移动社交网络(PMSN)在移动设备日益普及的今天,其应用越来越广泛,针对它的相关研究也越来越热门。而在相似度匹配的过程中,对于用户个人属性的隐私保护和对

学位

移动社交网络隐私集合求交属性匹配用户自定义隐私保护

面向开放域问答的答案抽取方法及相关技术研究

面向开放域的问答系统是自然语言处理领域中最具有挑战性的热点研究问题之一。随着互联网的飞速发展与普及，信息量的急速膨胀，有效查找和利用这些信息的迫切需求使得信息检索与

学位

开放域问答系统答案抽取方法自然语言处理搜索引擎

信息检索系统的设计与实现

随着网络的普及,丰富多彩的网络资源给人们的生活、工作以及学习带来了巨大的方便。然而,信息数量庞大、排列无序以及垃圾信息的干扰等都阻碍着人们充分利用网络资源。为了使

学位

搜索引擎索引检索

高维数据的聚类及离群点检测算法的研究与实现

与本文相关的学术论文