基于数据质量规则的缺失结果解释约减

来源 :第30届中国数据库学术会议 | 被引量 : 0次 | 上传用户:tingren_8912
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于数据缺失等原因,用户在查询结果中可能没有得到预期的答案.现有的方法通过枚举可能的缺失记录来解释“为什么没有why not”的问题然而,枚举得到的解释数量庞大,用户无法连一浏览确认缺失数据.实际上,这些可能的解释中有许多是不合理的,约减解释数量存在挑战根据真实数据试验,利用数据中存在的唯一性约束来进行约减,生成的解释数量仍有几十万个研究利用数据质量规则(如函数依赖)来高效约减缺失结果的解释首先,提出一种基于函数依赖的解释约减算法FDR(unctional dependencies-based reduction).其次,为了辅助用尸浏览生成的解释,进一步研究利用近似函数依赖对解释进行排序真实数据实验表明,FDR方法能够比现有的方法减少2~5个数量级的解释(从几十万个减少至几千个甚至几十个);利用近似函数依赖排序的Top-1解释精确率达到90%以上.
其他文献
今年夏季天气炎热,住房电风扇昼夜不停,我不知不觉受了风寒,头昏,头痛,咳嗽,喉痒。后来越来越严重,白天晚上咳嗽不止,甚至咳出血来。找大夫开了一些药,但吃了两天不见效果。情急之中,我
藤县象棋镇党委、政府,自1989年以来,充分发挥本地适宜种植龙眼的优势,发动农民大力发展龙眼,到1996年春,全镇大面积种植或利用房前屋后、四边空地种植龙眼五千多亩,挂果树
关系数据库广泛应用于人们的日常生活与生产中.目前大量研究致力于从各方面提高查询效率,而往往忽略了大量的历史信息中潜在的价值.本文提出了相关查询的概念,并利用相关查询
美国在海上和陆地上的集装箱运输每年由于被偷盗和损坏而造成的损失高达50多亿美元,其他一些国家类似的情况也很严重。为此,总部设在美国得克萨斯州圣 The U.S. losses of
耶氏菌被认为是人类胃肠炎的致病原,它已广泛地从动物源性和植物源性食品中分离到,环境分离株通常按生化反应将类耶氏菌分为三个新的种,即中间型耶氏菌、弗氏耶氏菌和克氏耶
通过对敞口山楂叶片光合速率(Pn)的研究表明:(1)Pn年周期变化为双峰曲线,峰值分别出现在6月中下旬和9月下旬。(2)不同类型枝叶片的Pn值有明显差异,但其Pn的年变化曲线均为三峰型,并且结
针对墩台不高,架梁数量不很多,河流与桥轴正交且水不深等情况,采用万能打件拼组作托梁,通过移动托梁逐片架设公路桥T梁。本文对此方法的适用条件、优缺点及效益情况进行了分析。
本文讨论了晶体管振荡器高频自激的困难,提出振荡器在超临界频段内的相角补偿关系。所得结果与实验相符合。 This article discusses the difficulty of high-frequency sel
快速准确地找到用户所需的Web服务是面向服务的软件工程时代中亟待解决的关键问题之一,通过对服务进行聚类是解决该问题的方式之一.为了提高服务聚类的效率和准确率,在存储We
会议
数据清洗中很重要的一步是实体识别,实体识别要做到将数据与实际物体一一对应但其中有2个问题:一个是同一个物体可能具有不同或者相似的名字,这会造成有大量重复的数据需要清
会议