论文部分内容阅读
复杂多样的数据类型为数据查询处理带来了前所未有的挑战,单纯依赖机器处理大数据通常难以获得高质量的结果。近几年,随着众包技术的不断发展,借助于众包实现数据查询处理已经成为了一个新的研究热点。众包需要普通大众的参与,这给基于众包的数据查询处理带来了巨大挑战,主要包括:第一,众包平台上的工人完成任务将获取一定的金钱报酬,对于海量数据,如何减少众包问题数量,节省人工费用;第二,众包平台难以保证工人答案的质量,如何有效的处理工人答案获得高质量的任务结果。针对这些挑战,本文提出了一系列针对基于众包的数据查询处理解决方法,本文的主要研究工作和贡献如下:1.自适应的多属性众包连接查询:对于众包连接查询,鉴于现有的问题生成方法难以有效过滤不必要的众包问题,本文提出了一种混合问题生成方法,采用分类、排序和聚类三种技术生成众包问题,为了避免错误过滤掉真实匹配的元组对,本文设计了自适应属性选择策略,该策略能够根据众包任务设计的变化而自适应的进行属性选择,此外,本文提出了加权投票方法处理工人答案,确保在减少代价的前提下,能够获得高质量的连接查询结果。2.众包环境下多谓词查询优化:传统数据库的查询优化技术难以适用于众包环境下多谓词选择查询,针对这一现状,本文提出了基于采样的众包多谓词选择查询框架,利用样本获得谓词顺序,并按照该谓词顺序对数据集进行人工验证,减少了任务数量。由于现有的谓词顺序生成方法没有考虑序列生成的代价,本文提出了基于随机序列的最优选择算法,通过验证少量随机序列获得高质量的谓词顺序,减少了代价。为了减少后续随机序列产生的代价,本文提出了基于过滤的序列选择算法,利用谓词选择性对序列进行筛选,避免验证不必要的众包问题。3.众包环境下增量式答案整合:针对现有众包环境下答案整合方法难以兼顾结果质量和效率的缺点,本文提出了一种增量式答案整合框架。一方面,设计了问题模型推断问题结果,随着工人答案逐步返回,结合工人答题准确率更新问题模型,本文提出了两种增量的方法更新问题模型,确保获得问题结果的时间不会随着工人答案数量的增加而线性增长;另一方面,设计了一种新颖的工人模型估算工人答题准确率,并提出了有效的策略对工人模型进行及时更新,从而获得更加准确的工人答题准确率,提高了问题结果质量。