数据去重系统计算性能优化方案的研究与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:chenlianggui888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代产生的海量数据存在着大量冗余。数据去重技术可以有效地消除冗余数据,从而获得学术界和工业界的广泛关注与应用。但是数据去重技术计算开销过大,会对存储系统性能造成明显影响。为了降低数据去重的计算开销对存储系统性能所带来的影响,分析了数据分块和指纹计算开销,并探究了传统的计算性能优化方案的不足:现有基于多核的优化方案中,并行化的加速方式虽然加速了基于内容的数据分块过程,但也破坏了数据去重基于内容分块的属性,导致了去重率下降的问题。为了解决并行分块带来的去重率下降的问题,提出了并行分块拼接策略,即在并行分块后对数据段边界进行分块修订。基于上述并行分块拼接策略,设计并实现了G-Dedup,一个利用GPU并行计算特性来加速Rabin数据分块和SHA-1指纹计算的数据去重系统。根据GPU的硬件特性,G-Dedup优化Rabin数据分块和SHA-1指纹计算的实现,并对Rabin数据分块结果进行均衡负载处理,以优化指纹计算阶段的GPU计算效率。在上述基础上,设计实现了G-Dedup流水线策略,从而进一步消除系统串行执行的时间开销,以提升系统的吞吐率。实验结果表明:G-Dedup有效地实现了数据分块和指纹计算的并行化,系统吞吐率平均达到了2.01GB/s;并行分块拼接策略对去重率的影响仅为0.1%~1.5%。
其他文献
目前,情感分析是自然语言处理中最活跃的研究领域之一。反讽是一种隐式情感表达的修辞手段,通过使用与实际意图相反的词来达到讽刺或者幽默的语言表达效果。反讽的真实语义无法通过文本词汇直接推断出来,它的字面意思和真实意图存在着矛盾冲突,因此,反讽识别及其情感判别更具挑战性。以往的文本情感分析往往忽略了这一语言现象,影响了情感分析的准确率。为了提升文本情感分析的准确率,本文对中文反讽识别及其情感判别开展研究
<正>历史上,人类建造了各种各样的桥梁,包括了梁桥、拱桥、斜拉桥、悬索桥,以便跨越河流、江水和山谷。虽然古代人类建造的桥小而原始,但仍然具有跨越的主要功能,属于桥梁工
通过氢氧焊割机与传统焊割设备的对比分析,充分显示了氢氧焊割机在安全、节能、环保等方面取代传统焊割设备的绝对优势,并阐述了氢能源在焊割领域里的应用价值和社会效益.
德国弗赖堡大学不久前宣布,该校研究人员研制出一种可用于皮下精确施放药物的新型复合材料,人体对这种材料不会产生不良反应.未来新材料有望用于治疗肿瘤等疾病.研究人员用原
汉语分级读物是学习者在课堂学习以外的辅助工具,与课堂教学使用的教材构成双向互助的作用,但现有汉语分级读物存在数量少、针对性不强、题材单一等问题。众所周知,成人是目
目的建立脑卒中高危人群的高血压病新型健康促进模式,并探索该模式对乐山社区脑卒中高危人群高血压病的干预效果。方法建立由神经内科专业人员参与的监控管理、社区直接管理
对数字海洋的概况进行了分析,指出存在的问题,提出了建设数字海洋的步骤与设想。
本文研究了鞍点问题的迭代法.在Benzi等人提出的维数分裂(DS)迭代方法的基础上,提出了具有三个参数的广义维数分裂(GDS)迭代法,该方法包含了DS迭代法,理论分析表明该方法是无
"花开盛世—中国美术馆藏花鸟画精品展"作为中国美术馆2018年跨年大展,将馆藏的百余件花鸟画精品亮相于观众。在展厅中,这些作品按照时间的顺序被分为三个篇章:第一个篇章"托物言
传统木构农房承载着居民的生活和珍贵的民族文化。实木资源的稀缺,以及生活方式的改变加之传统民居在热工性能、防火、抗震等方面存在不足,使得传统木构民居在现代适应性改造