论文部分内容阅读
近年来,随着人们对数据采集和处理技术理解的不断深入,不确定数据挖掘技术在移动电信、军事、经济和气象领域扮演关键角色,如GPS装置或者移动电话进行位置追踪、传感数据管理和特征数据提取等[1]。然而在现实生活中获取的数据并非都是准确无误的,如传感器网络、隐私保护、数据集成、位置服务和射频技术应用过程中,由于数据采集方式、气候或者人为干扰等外界因素都会产生大量不完整或者有误差的数据,这些数据对象都不是单个数据点,而是按照一定的概率出现,这些数据称为不确定性数据。由于不确定数据自身的随机性和复杂性很难使用传统的数据挖掘技术,有关不确定数据的离群点检测研究成果还有所不足,所以对不确定数据进行离群点检测研究很有现实意义。本文使用基于密度的方法进行不确定数据离群点检测,定义了一个基于密度的不确定局部离群点因子(Uncertain Local Outlier Factor:ULOF)的概念,用于表征不确定数据集中对象的局部离群程度,值越大说明对象的离群程度越高,从中提取离群度最高的n个数据对象。本文主要完成以下工作:①根据不确定数据的所属类型和产生原因,针对元组级不确定数据集的离群点检测,设计了基于密度的不确定数据离群点检测算法。通过建立不确定数据的可能世界模型来确定不确定对象在可能世界中的概率,并结合传统的局部离群因子(Local Outlier Factor:LOF)算法推导出ULOF算法,最后根据每个对象的ULOF值判断该对象在不确定对象集中的离群程度。②综合考虑不确定元组对象的元值和概率,结合每个不确定对象的ULOF进行不确定数据集的UTop-k查询,找出离群度最高的n个数据对象。③对ULOF算法的效率性、准确性以及时间和空间复杂度进行了详细分析,提出了基于网格的剪枝策略、k最近邻查询优化来减少离群数据的候选集,有效地提高算法效率,降低算法的时间复杂度。④通过模拟数据实验和真实数据实验来评估ULOF的可行性,比较并分析ULOF算法在不同参数影响下的效率性、伸缩性和准确性。⑤最后总结了本文所作的研究工作,对基于密度的不确定数据离群点检测研究的发展趋势做出了展望。实验结果证明了ULOF算法对不确定数据检测的可行性,高效率和高准确性,在数据集和数据维度上都有很好的伸缩性,同时优化后的算法有效地提高离群点检测的准确率、降低了时间开销,改善了不确定数据的离群点检测性能。