大数据处理中的容错技术研究

来源 :清华大学 | 被引量 : 0次 | 上传用户:fazaizhaoyun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现实世界中的数据存在着各种各样的错误,例如拼写错误、格式错误、数据不一致等。在分析数据之前,往往需要先对原始数据进行处理和转化,从而得到可用的数据。传统数据处理方式可能丢失很多有效信息甚至引入错误信息,为了得到最佳的分析结果并适应当今大数据时代的需求,论文研究大数据处理中的容错技术。鉴于现实世界中的数据很多都可以用序列或者集合表示,论文利用广泛应用的序列相似函数和集合相似函数来容忍数据的错误。针对数据处理的最典型三个操作:抽取、连接、检索,论文研究了近似抽取、近似连接和近似检索技术来实现错误容忍的数据处理,并设计了高效的索引和算法。论文的主要贡献包括:1.近似抽取:论文提出了一个统一的框架来同时支持序列相似函数和集合相似函数下的近似抽取。基于该统一框架,论文设计了高效的过滤算法来避免不必要的计算并设计了堆算法来共享计算。论文提出了快速有效的剪枝策略来进一步提高抽取性能。实验表明,论文提出的方法比现有最好的方法快1-2个数量级。2.近似连接:论文设计了一个基于划分的框架来支持近似连接,并针对序列相似函数和集合相似函数设计了高效的连接算法。对于序列近似连接,论文把序列平均划分为不相交的片段并保证仅当一个序列的子序列与另一个序列的片段匹配时它们才可能相似。论文提出了有效的子序列选取技术并证明了该技术选取的子序列数量是最少的。论文提出了扩展验证技术来快速验证候选结果。对于集合近似连接,论文根据全集把集合划分为不相交的片段(子集),提出混合使用片段和1-删集(移除片段中1个元素后的子集)来提高过滤能力,设计了动态规划算法来选取最优的混合分配,提出了近似比为2的贪心算法和多长度分组机制来把分配选取时间复杂度从O(s3)降低到O(s log s),其中s是集合大小。论文扩展了这两个算法以运行在MapReduce和Spark上来支持大数据的近似连接。基于划分的算法在EDBT大数据融合竞赛中以绝对优势取得冠军,并且效率比亚军高10倍。3.近似检索:论文提出了一个关键前缀过滤技术来解决基于序列相似性的近似检索问题。相比现有最好的前缀过滤技术,关键前缀过滤技术不但剪枝能力更强而且过滤代价更小。论文设计了动态规划算法来快速选取高质量的关键前缀,能够更好的检测序列中离散的错误。论文还提出了一个对齐过滤技术,能够检测序列中连续的错误。实验表明,关键前缀过滤技术能够过滤掉绝大部分不相似的序列并大幅提高了现有过滤技术的性能。
其他文献
敦煌哲学既是中国哲学的一个重要部分和重要补充,同时它又有其自身的独特性和独立性。敦煌哲学并不只是对历史上敦煌的各种观念和思想的筛选和解释,而应该是对蕴藏于敦煌历史
南水北调中线工程作为缓解中国北方水资源严重短缺局面的重大战略性工程,2014年汛后起向北京供水。通水初期,沿线各省市境内配套工程正在建设,所接纳的水量尚未达预计规模,有
<正>加强对个体税收征收管理,是近几年中税收征管的热门话题,笔者就本省的一些情况,对如何加强个体税收征收管理工作谈谈看法。 一、个体税收管理存在的问题 个体税收管理
李碧华小说以鲜明的女性主义立场和独特的女性主义视角,塑造了富有叛逆思想和抗争意识的女性形象,对两性关系进行了深度拷问,向"吃女人"的男性霸权文化表示了强烈的质疑和有
氡是最重要的天然辐射源之一,其辐射危害一直是辐射防护领域研究的热点问题。目前,对于氡辐射所致健康效应的研究方法主要有流行病学调查和放射生物学实验,两种方法的结果都
实验室合成的吖啶酮类衍生物8a对CCRF-CEM白血病细胞表现出良好的抗肿瘤效果,但对于它的抗肿瘤作用机制仍不清楚。本研究利用组学手段,研究吖啶酮衍生物对CCRF-CEM的作用,从
为了批判当代资本主义社会的现实弊病,构建理想社会生活的标准,霍耐特以承认理论开始了对社会批判理论的规范性重建。国内学者把霍耐特的理论重建解读为以承认理论为主、其他
作为网络数据处理与传输枢纽的路由交换设备可能存在安全漏洞,导致其服务行为不符合用户预期,严重威胁网络安全。为保障用户数据传输的保密性和完整性以及网络自身的可用性,
当下,图像成为了我们生活的重要组成部分,它不再仅是对现实生活的反映,而是带来了人类视觉方式的深刻变革。这些图像日益扩展并渗入到我们生活的各各领域,人们被越来越密集的
图像检索在信息检索领域中扮演着越来越重要的角色。传统的图像检索方法由于很难获取到用户的个人信息,因此更侧重于语义鸿沟(即图像底层特征到高层语义之间的鸿沟),而缺乏对