基于语义指纹和LCS的文本去重方法

来源 :软件 | 被引量 : 0次 | 上传用户:anqir621
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了解决传统中文文本去重准确率低的问题,本文提出了一种基于语义指纹和LCS的文本去重方法。针对中文文本,预处理后抽取出文本摘要,然后使用tf-idf算法分别得出文本内容特征向量和摘要特征向量,分别将这两个向量作为simhash算法的输入,计算得到文章的内容指纹和摘要指纹。计算两个文本对应的两个指纹的汉明距离,代入本文公式,最终得到这两文本的指纹距离;使用指纹对文本对进行初步筛选,对判定为相似的两个文本使用LCS算法进行进一步对比,避免误判,最终实现中文文本快速去重。实验过程中,通过与LCS算法、simha
其他文献
目的对2型糖尿病合并骨质疏松症的患者相关影响因素进行分析,为早期预防和后期治疗2型糖尿病合并骨质疏松症提供依据。方法选取该院内分泌科2016年4月-2017年4月收治2型糖尿病
在深厚软土地基上,通常采用碎石桩复合地基加固路基,在软土的内聚力小于或等于15kPa时,碎石桩因侧向约束力较小,可能无法获得足够的承裁能力和承受较大的侧向变形。在这种情况下,
为了对铁路建设项目全过程的环水保工作进行系统性评价,构建科学、合理、实用的铁路建设项目环水保工作评价标准指标体系,实现对铁路建设项目建设单位在工程设计、施工、验收
永磁变频螺杆压缩机是未来螺杆压缩机的发展趋势。本文针对所设计的额定功率45k W、额定转速4000r/min压缩机用永磁电机转子结构进行了研究。研究内容包括:1用有限元法分析了
构建创新创业教育与机械设计制造及自动化专业深度融合的人才培养方案,以学生为中心,充分发挥学生的主体性,从教育理念、教学内容、教学手段、课程设置、师资队伍、实践平台
日语中有许多客套话,日本人也非常频繁地在使用。这与日本的文化及日本人重形式、重礼貌的个性密不可分。我们日语学习者在学习日语的过程中除了单词、句子、语法知识外。也接
白内障的发生是一个复杂的过程,大量的实验和临床研究提示氧化应激与白内障有密切关系。氧化还原系统失衡导致细胞内氧自由基生成增加和细胞膜功能障碍,引起晶状体纤维蛋白的
目的探讨不同病程2型糖尿病患者骨骼矿物质密度(以下简称骨密度)的变化及作用机制。方法 2型糖尿病患者201例根据病程长短分为〈5年(短期组)67例、5-10年(中期组)68例、〉10年(长期
随着我国经济的发展,信息技术水平的进步,互联网金融时代已经到来,这既为企业融资问题的解决提供了机遇,同时也对企业的发展提出了一定的挑战,想要把握机遇,迎接挑战,就必须
目的探析血清降钙素原在诊断感染性发热中的价值。方法选取2016年1月~2017年1月我院收治的发热查因急诊患者72例,根据是否为细菌感染,分为细菌感染组(42例)和非细菌感染组(30