一种基于Hadoop的文本相似度仿真检测模型

来源 :新疆大学学报:自然科学版 | 被引量 : 0次 | 上传用户:sotry
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代数据量成倍的增长,传统的文本相似度检测方法已经无法处理大规模的文本数据.为此,提出了一种基于Hadoop集群技术的文本相似度仿真检测模型.该检测模型分为三步:第一步,利用Hadoop工具搭建实验平台,并针对该平台进行硬件和软件的优化;第二步,把文档转化为集合,使用改进的基于Map Reduce编程模型的Shingling算法;第三步,提出一种分布式的New Minhash算法求签名矩阵,然后利用Jaccard系数计算出相似度,选出相似的文档.实验证明:对于相同操作,优化后的性能耗时减少了近5.
其他文献
本文利用可测算子广义奇异值的性质,把一些有关矩阵奇异值的不等式推广到了可测算子的情形.
海南是农业省,发展海南经济,农业的发展应占有重要的位置。发展海南农业,应利用特区政策上的优势,走农业综合开发的道路,向外向型方向发展;在抓粮食生产发展的同时,大抓热作
大型软件集成的若干问题殷建山东大学威海分校山东·威海(264200)1引言大型软件系统的研制和单个软件的研制有着本质的区别。通俗地说,大型软件的研制是工业化生产,单个软件的研制是个体生产。大型软件的研制,面临组织协调,接口定义,不同专业人员技术沟通,...
目的筛选不同生长时期的油莎草地上茎的内参基因,为分析其基因的表达提供支持.方法以生长40 d的油莎草幼苗10:00,12:00,14:00,16:00,18:00,20:00六个时间点的地上茎为材料;以及生长
景观的形状指数和分维数不仅与单个斑块的面积和形状有关,而且与斑块内所包含的异质嵌块个数及大小有重要的关系.景观中常常出现斑块之间包裹和互相镶嵌的情况,这种镶嵌对于斑块的分维数、斑块形状指数都会产生影响,也将对整个斑块的功能产生影响.本研究模拟了基质内包含其他斑块时形状指数与形状分维数的变化特征,结果表明:随着基质内其他斑块的增多,分维数和形状指数值都将变大,分维数将向2趋近,而形状指数将发散.分维
结合二氧化碳地质封存的相关技术机理,利用国际通用潜力评估公式,通过对准东地区的油藏指标、气源指标、交通状况等指标的评估,系统地提出了适合新疆准噶尔盆地东部CO2地质封
恰有两个拉普拉斯特征值大于2的所有连通图都是由拉普拉斯谱唯一确定的.
虚拟发电厂(Virtual Power Plant,VPP)作为大量分布式电源(Distributed Generation,DG)接入配电网的有效途径,因其供需系统的复杂性和不确定性,给VPP运营决策带来诸多不便.本文在
目的:探讨比索洛尔对培养的高血压大鼠(SHR)和Wistar大鼠心脏成纤维细胞(CFs)增殖及胶原合成的影响.方法:采用胰酶消化法培养CFs,采用3H-胸腺嘧啶核苷(3H-TdR)掺入法测定CFs
目的探讨蛋白磷酸酶2A抑癌因子(CIP2A)在非小细胞肺癌(NSCLC)中的表达及其对预后的影响.方法选择2010年6月-2011年5月,收治的106例NSCLC患者,均在医院进行手术切除治疗.本方案经