基于信息理论的空间离群点挖掘技术研究

来源 :江苏大学 | 被引量 : 4次 | 上传用户:qvwen2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
离群点挖掘已成为数据挖掘研究领域最活跃的分支之一。在数据库、数据挖掘、机器学习和统计学等领域受到广泛关注,在欺诈检测、入侵检测、故障检测、生态系统失调、公共卫生中的异常疾病的爆发、公共安全中的突发事件的发生、异常自然气候的发现等应用中有着广阔的应用前景。随着传感器设备技术的发展,数据采集设备的数量越来越多,精度越来越高,空间数据的数量越来越大,维数也越来越高。现有的针对空间数据的离群点挖掘方法主要是基于距离和基于密度的,这些方法受到“维度灾难”和数据量伸缩性的挑战。基于信息理论的离群点检测算法一般研究的是分类属性并假设属性之间相互独立,由于空间数据的自相关性和异质性,决定了现有的基于信息理论的离群点检测方法也难以适应数据挖掘,故基于信息理论的空间离群点挖掘算法还未见报道。因此,本文将根据空间数据自身的特点,基于综合考虑信息熵和属性之间关联性的全息熵概念,研究基于全息熵的能同时适应离散属性和连续属性的空间离群点检测算法。论文主要工作如下:(1)对现有的与空间离群点检测相关的典型的离群点检测算法进行分析和实验比较,指出各自的优势及存在的局限。(2)针对现有的空间邻居(域)的确定仅仅依靠空间关系,造成复杂度高的局限,提出利用空间标识属性实现空间区域划分,并利用空间标识属性的层次特性建立层次树,直到特定层次,即在一定区域内才通过空间关系确立空间邻居,并用R*-树进行检索,从而降低了计算复杂度,并为分布并行计算奠定了基础。(3)针对现有的空间离群点检测算法难以适应高维大数据的问题,提出综合考虑信息熵和属性之间互信息的全息熵的空间离群点挖掘算法。算法提出了针对不同类型属性的相异度度量方法和基于相异度信息熵度量方法,并提出了基于信息熵的属性权重计算方法。在此基础上提出了基于加权的全息熵的离群度度量方法,并设计了基于离群度的空间离群点挖掘算法。理论和实验结果均表明,由于算法综合考虑了空间数据的特性,有效实现了数据划分和权重的自动计算,在计算复杂度、计算精度、用户依赖性和结果的可解释性方面均具有优势。
其他文献
互联网领域技术高速发展,产生了大量的网络数据,用户迫切需要以较快较准确的方法获取文本的核心信息,而搜索引擎给出的信息依然过多、过滥,用户很难通过搜索引擎快速准确地定位到
面对庞大的视觉信息,由于处理能力有限,人类视觉系统能自动有选择地处理复杂自然场景中的重要视觉信息,这种优先处理重要信息的能力,也称为视觉选择注意机制,让人类能够快速、准确
语音情感识别是情感研究领域的研究热点之一,其通过获取说话人的语音情感特征参数,进而识别说话人的情感状态。语音情感识别在测谎、心理学研究和智能人机交互等领域都有广泛的
人脸识别是图像处理和模式识别领域的一个重要研究课题,人脸识别和认证技术在公共安全、智能监控、多媒体等领域有着广阔的应用前景。经过数十年的研究,在理想情况下人脸识别技
作为非侵入方式,对人体或人体某部分进行诊断的医学影像正随着三维重建及其交互技术的发展而受到越来越多医生和科研工作者的关注。具有解毒、排泄、免疫、内分泌代谢等功能的
基于视觉的道路检测的关键是如何将像素点准确归为道路表面和非道路表面,这在阴影、车流量较大且路面情况复杂等情况下存在很大挑战,而单目视觉具有成本低廉、处理难度较大的特
随着网络日益普及和使用电子商务平台进行购物的用户越来越多,电商的商品种类和信息也越来越庞大,海量的商品和平台信息往往消耗掉网购用户大量的时间和精力进行查找商品或检索
为了便于人眼视觉观察和后续计算机分析处理,图像复原和图像增强能够突出图像中的部分细节信息。由于存在大气粒子的作用,雨雾天气时,空气中充满着小水珠,各种图像实物的反射
随着互联网技术的迅猛发展,图片获取和传播途径的日益宽广以及图片存储能力的不断提高,使得海量图像数据库成为人们获取和检索图像的主要对象。如何从这些海量图像数据中获取具
卫星舱布局设计(SMLD)属于3D带性能约束的组合优化问题。求解此类问题时,需将三维卫星舱部件简化成圆柱体和长方体。当各部件竖直放于承载板时,该问题可以转化成2D带平衡约束的