论文部分内容阅读
离群点挖掘已成为数据挖掘研究领域最活跃的分支之一。在数据库、数据挖掘、机器学习和统计学等领域受到广泛关注,在欺诈检测、入侵检测、故障检测、生态系统失调、公共卫生中的异常疾病的爆发、公共安全中的突发事件的发生、异常自然气候的发现等应用中有着广阔的应用前景。随着传感器设备技术的发展,数据采集设备的数量越来越多,精度越来越高,空间数据的数量越来越大,维数也越来越高。现有的针对空间数据的离群点挖掘方法主要是基于距离和基于密度的,这些方法受到“维度灾难”和数据量伸缩性的挑战。基于信息理论的离群点检测算法一般研究的是分类属性并假设属性之间相互独立,由于空间数据的自相关性和异质性,决定了现有的基于信息理论的离群点检测方法也难以适应数据挖掘,故基于信息理论的空间离群点挖掘算法还未见报道。因此,本文将根据空间数据自身的特点,基于综合考虑信息熵和属性之间关联性的全息熵概念,研究基于全息熵的能同时适应离散属性和连续属性的空间离群点检测算法。论文主要工作如下:(1)对现有的与空间离群点检测相关的典型的离群点检测算法进行分析和实验比较,指出各自的优势及存在的局限。(2)针对现有的空间邻居(域)的确定仅仅依靠空间关系,造成复杂度高的局限,提出利用空间标识属性实现空间区域划分,并利用空间标识属性的层次特性建立层次树,直到特定层次,即在一定区域内才通过空间关系确立空间邻居,并用R*-树进行检索,从而降低了计算复杂度,并为分布并行计算奠定了基础。(3)针对现有的空间离群点检测算法难以适应高维大数据的问题,提出综合考虑信息熵和属性之间互信息的全息熵的空间离群点挖掘算法。算法提出了针对不同类型属性的相异度度量方法和基于相异度信息熵度量方法,并提出了基于信息熵的属性权重计算方法。在此基础上提出了基于加权的全息熵的离群度度量方法,并设计了基于离群度的空间离群点挖掘算法。理论和实验结果均表明,由于算法综合考虑了空间数据的特性,有效实现了数据划分和权重的自动计算,在计算复杂度、计算精度、用户依赖性和结果的可解释性方面均具有优势。