基于密度的不确定数据离群点检测研究

被引量 : 0次 | 上传用户:like_scdx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着人们对数据采集和处理技术理解的不断深入,不确定数据挖掘技术在移动电信、军事、经济和气象领域扮演关键角色,如GPS装置或者移动电话进行位置追踪、传感数据管理和特征数据提取等[1]。然而在现实生活中获取的数据并非都是准确无误的,如传感器网络、隐私保护、数据集成、位置服务和射频技术应用过程中,由于数据采集方式、气候或者人为干扰等外界因素都会产生大量不完整或者有误差的数据,这些数据对象都不是单个数据点,而是按照一定的概率出现,这些数据称为不确定性数据。由于不确定数据自身的随机性和复杂性很难使用传统的数据挖掘技术,有关不确定数据的离群点检测研究成果还有所不足,所以对不确定数据进行离群点检测研究很有现实意义。本文使用基于密度的方法进行不确定数据离群点检测,定义了一个基于密度的不确定局部离群点因子(Uncertain Local Outlier Factor:ULOF)的概念,用于表征不确定数据集中对象的局部离群程度,值越大说明对象的离群程度越高,从中提取离群度最高的n个数据对象。本文主要完成以下工作:①根据不确定数据的所属类型和产生原因,针对元组级不确定数据集的离群点检测,设计了基于密度的不确定数据离群点检测算法。通过建立不确定数据的可能世界模型来确定不确定对象在可能世界中的概率,并结合传统的局部离群因子(Local Outlier Factor:LOF)算法推导出ULOF算法,最后根据每个对象的ULOF值判断该对象在不确定对象集中的离群程度。②综合考虑不确定元组对象的元值和概率,结合每个不确定对象的ULOF进行不确定数据集的UTop-k查询,找出离群度最高的n个数据对象。③对ULOF算法的效率性、准确性以及时间和空间复杂度进行了详细分析,提出了基于网格的剪枝策略、k最近邻查询优化来减少离群数据的候选集,有效地提高算法效率,降低算法的时间复杂度。④通过模拟数据实验和真实数据实验来评估ULOF的可行性,比较并分析ULOF算法在不同参数影响下的效率性、伸缩性和准确性。⑤最后总结了本文所作的研究工作,对基于密度的不确定数据离群点检测研究的发展趋势做出了展望。实验结果证明了ULOF算法对不确定数据检测的可行性,高效率和高准确性,在数据集和数据维度上都有很好的伸缩性,同时优化后的算法有效地提高离群点检测的准确率、降低了时间开销,改善了不确定数据的离群点检测性能。
其他文献
随着金融研究的快速发展,心理学和经济学理论的结合研究已经越来越受到重视,行为金融学已经发展成为金融学理论的重要分支之一。行为金融学可以较好地解释股市上很多无法用经
上个世纪60年代,兴起于美国黑人青少年的民间舞蹈——街舞逐渐被世界各地广为流传。随着我国街舞运动的发展,越来越多的青少年学生加入到街舞团体。这对我国的街舞发展起到了
目的探讨辛伐他汀联合抗栓治疗在脑梗死中的治疗价值。方法将104例脑梗死患者按随机数字表法分为2组:对照组52例给予常规基础治疗+抗栓治疗,观察组52例在对照组治疗基础上加
所谓军队财务管理信息化,就是指军队财务实现军队财务信息化、网络化的管理,并且能够实现远程操作的功能,将各个子系统的数据信息共享,在网络上进行军队财务信息的管理和业务
[目的]探讨影响不孕妇女心理健康的因素,为心理支持和干预提供科学依据。[方法]使用家庭关怀度指数问卷(APGAR)、症状自评量表(SCL-90)对162名不孕妇女实施测量,同时调查患者
目的探讨在3.0 T MRI上运用IDEAL-IQ序列进行肝脏脂肪定量分析的可行性。方法对31例经临床确诊的脂肪肝患者及20名健康志愿者行常规MRI扫描及IDEAL-IQ序列检查;同期空腹采静
随着司法体制改革的逐步深入,人民法院各项管理制度日益完善、队伍素质整体提升、司法公信力进一步提高,但与之形成对比的是,由于法律规定的缺失、民商事案件的复杂、社会环
<正>2012年8月7日至8月27日,应美国加利福尼亚长滩州立大学国际教育副校长Jeet Joshee的邀请,山东法院代表团一行18人前往美国学习培训破产托管人制度。期间,通过听取专家讲
本文详细介绍了全健排舞运动的起源及在我国的发展现状,重点阐述并总结了全国排舞培训班的开展情况,分析了影响全健排舞项目发展的观念因素,并提出针对性建议,以期在中国更好
运用文献资料法、问卷调查法、访谈法等对湖州师范学院非体育专业学生体育舞蹈课程的师资情况、开设的内容、场地设施、开展情况进行调查并对存在的问题进行分析。结论:大学