基于众包的数据查询处理关键技术研究

来源 :清华大学 | 被引量 : 0次 | 上传用户:liyumei1221
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
复杂多样的数据类型为数据查询处理带来了前所未有的挑战,单纯依赖机器处理大数据通常难以获得高质量的结果。近几年,随着众包技术的不断发展,借助于众包实现数据查询处理已经成为了一个新的研究热点。众包需要普通大众的参与,这给基于众包的数据查询处理带来了巨大挑战,主要包括:第一,众包平台上的工人完成任务将获取一定的金钱报酬,对于海量数据,如何减少众包问题数量,节省人工费用;第二,众包平台难以保证工人答案的质量,如何有效的处理工人答案获得高质量的任务结果。针对这些挑战,本文提出了一系列针对基于众包的数据查询处理解决方法,本文的主要研究工作和贡献如下:1.自适应的多属性众包连接查询:对于众包连接查询,鉴于现有的问题生成方法难以有效过滤不必要的众包问题,本文提出了一种混合问题生成方法,采用分类、排序和聚类三种技术生成众包问题,为了避免错误过滤掉真实匹配的元组对,本文设计了自适应属性选择策略,该策略能够根据众包任务设计的变化而自适应的进行属性选择,此外,本文提出了加权投票方法处理工人答案,确保在减少代价的前提下,能够获得高质量的连接查询结果。2.众包环境下多谓词查询优化:传统数据库的查询优化技术难以适用于众包环境下多谓词选择查询,针对这一现状,本文提出了基于采样的众包多谓词选择查询框架,利用样本获得谓词顺序,并按照该谓词顺序对数据集进行人工验证,减少了任务数量。由于现有的谓词顺序生成方法没有考虑序列生成的代价,本文提出了基于随机序列的最优选择算法,通过验证少量随机序列获得高质量的谓词顺序,减少了代价。为了减少后续随机序列产生的代价,本文提出了基于过滤的序列选择算法,利用谓词选择性对序列进行筛选,避免验证不必要的众包问题。3.众包环境下增量式答案整合:针对现有众包环境下答案整合方法难以兼顾结果质量和效率的缺点,本文提出了一种增量式答案整合框架。一方面,设计了问题模型推断问题结果,随着工人答案逐步返回,结合工人答题准确率更新问题模型,本文提出了两种增量的方法更新问题模型,确保获得问题结果的时间不会随着工人答案数量的增加而线性增长;另一方面,设计了一种新颖的工人模型估算工人答题准确率,并提出了有效的策略对工人模型进行及时更新,从而获得更加准确的工人答题准确率,提高了问题结果质量。
其他文献
近年来,随着大数据技术以及物联网技术在制造业的广泛使用,以工业大数据为基础的现代状态监测系统,被广泛应用于复杂装备工作状态的监测。利用状态监测系统采集的复杂装备的
随着塑料工业的快速发展,大型塑料制品的需求量在不断增加,制品质量也要求越来越高,这些都要求其注塑模具的设计效率和质量也越来越高。对比分析各类注塑模具的结构特点及其
价值观是人们关于价值本质的认识以及对人和事物的评价标准、评价原则、评价方法的观点体系,对人的实践起着激励、制约和导向作用。个体人生价值的实现一定程度上取决于心理
为了培养企业岗位需求的合格技能型人才,有效提高中职学生的职业素养,我校从改革班级管理入手,引入企业元素,使学生进入到职业学校中就感知企业的人文环境,培养职业意识,塑造
所谓VIE结构,实质上是在保持公司股权结构稳定之下,外资股东通过设立SPV以及特殊协议曲线获得企业的经营控制权。在运作机制上,VIE结构通过多层次的协议架构境外上市主体、境
从网络技术的发展趋势看,软件定义网络已经成为促进网络创新和重构网络体系的最重要推动力之一。软件定义网络具有的转发与控制分离、基于全局视图的集中控制等特点,显著提高
实验教学是整个教学过程的重要组成部分,实验教学同样也是巩固知识、提高操作技能的必备环节。通过加强实验室管理,突出教学仪器设备的基础功能,实验教学环节的关键作用和实
目的了解临床产科护士核心能力培养的现状与需求。方法为制定产科护士在职规范化培训方案提供客观依据方法采用自行设计的调查表,对我医院的32名产科护士进行了调查。结果有5
<正> 杰罗姆·艾伦德(Allender·J·S)是美国天普大学(Temple University)心理教育过程系主任,主攻教育心理学,偏重教法与学习理论。他的夫人唐娜·艾伦德创办了一所特殊实验
高新技术企业正逐渐主导世界产业经济发展的大趋势,在高新技术企业迅速发展的过程中,成本管理起着重要的作用,高新技术企业与传统企业相比,在成本管理方面存在许多不同之处。