基于信息熵的不确定性数据清理

来源 :云南大学 | 被引量 : 0次 | 上传用户:nanlulgd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不确定性数据(Uncertain data)是数据采集及处理技术的进步与发展的产物,近年来受到学术界和工业界的广泛关注。不确定性数据产生的原因特殊,可能是采用了粗粒度的数据集合或是原始数据本身不准确,也可能是为了满足特殊的应用目的,或是在数据集成过程中、处理缺失值而产生;与此同时不确定性数据的表现形式也多种多样,它们可以是流数据、移动对象数据、关系型数据或者半结构化数据形式。基于种种原因,这些不确定性数据中往往会存在一部分异常数据,而人们希望得到的能够正常使用的不确定性数据是可靠的、没有错误的。不确定性数据的清理已经成为了一个热点问题。目前针对不确定性数据的质量管理方法以及形式差异,研究者、学者已经提出了很多关于不确定性数据的数据模型,这些数据模型的核心就是可能世界模型。可能世界模型可以将不确定性数据演化为多个可能世界实例,同时可能世界实例又对应有一个概率,方便对不确定性数据质量进行管理研究。然而可能世界实例的规模远远大于不确定性数据库的规模,所以将可能世界模型作为不确定性数据的数据模型时必须运用剪枝、排序等启发式技术设计新型算法,用以提高效率,这势必将会是一个异常繁琐的过程。信息熵是信息论中用以定量描述信息的不确定性、稳定程度和信息量大小的方法。本文将不确定性数据的信息量大小定义为不确定度,以信息熵为支撑理论,通过不确定性数据的概率,定量地计算不确定性数据的信息量。基于此可以有效减少可能世界实例,高效地完成不确定性数据的清理。以信息熵为支撑理论,本文的主要工作包括:·将信息熵的理论引入到不确定性数据中,计算不确定性数据的不确定度,以此作为计算不确定性数据可信区间划分标准的前提。·结合数理统计的方法,针对数值型不确定性数据,通过计算得到不确定性数据可信区间的划分标准,并给出可信区间。·清理不确定性数据库中不在可信区间内的不确定性数据数据,更新不确定性数据库,完成清理工作。·进行不确定性数据清理的模拟实验,通过实验验证了本文方法的高效性和有效性。
其他文献
桥式起重机的小车机构需要移动式动力传输装置,目前主要有拖令系统传输方式,拖链系统传输方式。文中对这两种系统进行比较分析,发现拖链式动力传输系统的运行状况更能满足自
目的探讨并总结大直径(40 mm)球囊扩张治疗贲门失弛缓症的方法及中远期疗效。方法 80例患者病程3~23年。Mellow-Pinkas吞咽困难分级(0~4级)为:Ⅰ级6例,Ⅱ级60例,Ⅲ级14例;均经
目的:本试验以“清热祛湿”为治法,通过随机对照临床研究,观察龙胆泻肝汤加味治疗酒精性脂肪肝(肝胆湿热证)的临床疗效性及安全性。方法:对就诊于我院已被确诊为酒精性脂肪肝
韩少功在《马桥词典》中除了文体的贡献外 ,他对“人”“人性”“人类”的关注也在继创作了《归去来》 ,《爸爸爸》之后达到了新的高度。如何从马桥人在生存重压下的人格裂变
聚集坊崩塌危岩体的治理工程已纳入《三峡库区地质灾害防治总体规划》的近期勘查、治理项目。本文通过该项目的可行性研究与设计,浅析崩塌危岩体的成因及防治。
我国著名儿童教育家陈鹤琴先生提倡让孩子剪纸,他认为:"小孩子应有剪纸的机会。一是可以养成独自消遣的好习惯,二是可以练习手筋。"剪纸是一项动手性很强的美术活动;在剪纸的
<正>"展望金融危机复苏后的世界和未来,‘中国制造’还将面临发达国家重振高端制造和新兴经济体低成本制造快速发展的双重挑战。"2013年11月6日,在安徽合肥召开的以"创新驱动
目的分析内支架辅助治疗颅内动脉瘤的并发症,探讨降低并发症的方法。方法 2009年6月至2012年3月收治38例颅内动脉瘤患者,其中曾有蛛网膜下腔出血17例,无出血史21例;颅内单发
目的探讨X线引导下经皮胃造瘘术和鼻-胃营养管置入术的临床疗效和安全性。方法回顾性分析67例吞咽困难患者,其中喉癌14例,食管-纵隔瘘18例,颈段食管癌35例。22例行X线引导下
随着城市化和工业化的发展,空气环境问题日益突出,大气颗粒物污染受到人们越来越多的关注.为了研究城市道路中不同绿地结构对大气不同粒径颗粒物的消减作用,本文选择青岛市城