大数据集成中确定数据准确属性值的WR方法

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:c1s2d3n456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据集成是提供高质量数据以进行决策的基础.集成的一个关键环节是根据实体在数据库中的不同元组确定其准确属性值.最新的R-topK方法在数据上实施人工设计的规则确定属性值间的准确程度,得到了相对准确的属性值.然而这种方法在处理多个可能的准确值或设计的规则存在冲突等情况下需要较多人工交互.为此提出基于权重规则的WR(weighted-rule)方法确定大数据集成中数据的准确属性值.该方法为属性值间准确程度的判断规则扩充了权重,在准确值发生冲突时避免了R-topK方法中人工交互干预.基于追逐过程设计了约束条件推理算法,并证明它能够在O(n2)内推导出每对属性值间的带权重的准确程度,形成推导准确属性值的约束条件.面对约束条件中可能的冲突,提出了目标求解算法,在O(n)时间内从所有属性值组合中搜索最可能的准确属性值.在真实和合成数据集中进行了充分的实验,验证了WR方法的效果和效率.WR方法较R-topK方法在性能上提高了3~15倍,在效果上提升7%~80%.
其他文献
为研究深层高压低渗砂岩储层微观孔隙结构特征参数,应用常规压汞技术对东濮凹陷文东油田深层高压低渗砂岩储层样品进行分析测试.定义退汞饱和度参数(SE),提出以退汞效率(EW)
安徽省即将实行新版的前期物业合同示范文本,即日起,该部门将就《安徽省前期物业服务合同示范文本(征求意见稿)》(下文简称《征求意见稿》)公开向市民征求意见。《征求意见稿》明确
关于群众性精神文明创建活动的若干思考陈荣昌陈武明人民群众是社会主义精神文明建设的主体,是社会主义精神文明建设的基础和活力之源,这一点已被越来越多的人所认识。因此,正确
根据《中国履行〈关于持久性有机污染物的斯德哥尔摩公约〉国家实施计划》,制浆造纸行业是我国开展二英履约减排的六大重点行业之一,需要在规定的时间内达到减排要求.非木浆
在苗族的史诗中,可以看到大量的创世神话、图腾神话等远古神话,它们所代表的苗族文化形态和历史渊源是苗族史诗价值定位的依据。苗族的史诗是活的形态的历史,是记录苗族社会
重述神话"是英国坎农格特出版公司在全球范围内发起的合作项目,引起了较为广泛的影响。阿来小说《格萨尔王》是对藏族文化的弘扬与发展,是将传统文化与现代文学结合的典范,是
<正> 北宋著名文学家苏洵的女儿苏八娘,世称苏小妹,是位聪慧、多才、美丽的女子。几百年来,一直流传着许多关于她生平事迹的动人传说。如话本小说《苏小妹三难新郎》,描述她
会计估计是会计的灵魂,是财务报告信息质量的根本依赖。会计估计是一种主观约略性价值计量,会计估计"黑箱"和会计计量属性发展需求是会计估计面临的现实困境。针对困境,提出
根据欧几里得平面的点位误差Helmert表示法及相应的方差-协方差传播定律,推导了点位误差及点间相对误差的计算公式.论证了点位误差的位置相关性及点间相对误差的位置无关性,
<正> 江南制造总局(也称上海机器局、上海制造局或沪局)是洋务运动中所创建的中国第一个大型近代军事工业,也是中国人移植外国先进生产技术、使用机器的开始。它在中国近代化