论文部分内容阅读
数据挖掘是在海量的数据中发现事先未知的、隐含的且能被人们利用的模式和关系,这些关系可以指导人们对未来的行为进行预测。在现实生活中,我们经常遇到大量的高维数据,例如商场的购物篮数据、文档数据、Web使用数据以及多媒体数据等等。正是因为高维数据的普遍存在,对高维数据挖掘进行研究有着非常重要的意义。
聚类分析是在数据挖掘中经常使用的方法。但是传统的聚类方法在高维数据上应用时遇到了各种问题,随着数据维度的提高,高维索引的性能迅速下降。因此,高维数据的聚类方法成为数据挖掘方面的研究热点之一。对高维数据的大量研究表明,某些高维数据的属性之间存在相关性,对于高维数据可以通过属性选择等技术去除冗余维度,在原始数据的子空间内进行聚类挖掘。
本文针对聚类分析的热点和难点问题——高维聚类展开研究,目的是寻求有效的高维聚类算法,以及有效的高维数据离群点发现和聚类结果表达等技术。本文研究高维聚类分析的关键技术,在映射聚类的基础上,提出了一种改进的高维数据映射聚类算法。针对高维数据的特点,对基于高维二元数据映射聚类模型中的EM算法进行改进,提出了基于混合柏努利模型的映射聚类方法;在高维二元数据映射聚类的基础上,针对高维数据中的离群点问题设计了一种高维数据的离群点检测算法,即利用属性熵来检测离群点。
理论分析和与相关工作的实验对比表明:本文提出的基于混合模型EM聚类算法在对高维数据的聚类准确性方面具有更大的优势,而针对高维数据的离群点检测算法是合理且有效的。