大数据下基于多CPU的两级指纹流水计算去重方法

来源 :计算机系统应用 | 被引量 : 0次 | 上传用户:wang908070
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分析数据去重的重要意义,根据现有的数据去重技术和算法,改进MD5码指纹的计算算法并进行优化,分析并重组指纹计算的流水化方法,利用缓存组代替单个缓存的方式,提出一种基于多CPU的两级指纹流水计算方法,对该方法进行分析研究,并通过相关试验和试验数据来支持该方法的有效性.
其他文献
针对煤矿瓦斯突出因素的复杂性,提出一种新的智能优化算法一双混沌搜索蜂群(DBC)优化算法,应用于煤矿瓦斯突出的预测中.DBC优化算法对人工蜂群算法进行有效改进,在人工蜂群算法的基
本文利用图论模型的转化,改进传统贪心算法,设计了一种新的求解高校排考问题的图算法.改进后的算法可以更好应对在现实学分制环境下,跨年级、跨专业、主辅修等复杂的选课因素
针对目前中央空调系统存在的能效信息分散,不易共享的问题,设计了中央空调能效监测平台,根据中央空调系统现有的能效监测手段及能效计算方法,建立能效评价体系,并结合中央空
随着越来越多的数据累积,对数据处理能力和分析能力的要求也越来越高.传统k-Nearest Neighbor(k NN)查询算法由于其容易导致计算负载整体不均衡的规则区域划分方法及其单个进
针对大量瑞氏染色细胞图像,通过YCbCr颜色空间进行K-means聚类,观察各分量聚类中心差值变化规律,提出了一种新的确定K-means聚类数的颜色校正算法.该算法首先是将瑞氏染色细胞图像中不同目标分别准确地聚集在相应类当中,再与标准图像中的每类进行配比,并利用直方图规定化进行直方图调整,得到颜色校正结果.经大量实验证明,尤其在细胞图像中目标颜色特征较接近的情况下,该算法通过确定合适的聚类数可大大
为了解决项目调度过程中不同项目之间的资源冲突问题,提出了一种基于拓扑排序的邻域搜索算法.设计跳动和微动两个操作,实现编码的更新,保证解的多样性与收敛性.用项目调度问题库(Pr
通过对地球物理软件研发过程中比较常见内存错误的调研与总结,设计并实现了一个基于C/C++的动态内存检测工具,采用内嵌与关键函数截获方式,对编译器开放接口进行扩展与改进.该
随着云计算的兴起,虚拟机正逐步成为应用服务的部署环境,如何高效、经济地管理虚拟机镜像文件至关重.提出了一种Qo S约束的虚拟机镜像放置优化方法,通过存储收益模型量化分析
虚拟化技术是云计算的关键技术之一.同时,监视虚拟机又是虚拟化平台的一个重要功能.为了更好的获取客户虚拟机的内部信息,在Xen虚拟化环境中设计并实现了一种轻量级的虚拟机
针对一种混合遗传算法所采用的贪心变换法的不足,给出了一种改进的贪心修正法;并基于稳态复制的策略,对遗传算法的选择操作进行改进,给出了随机选择操作.在此基础上,提出了一