自然语言文本复制检测算法

来源 :电脑与信息技术 | 被引量 : 0次 | 上传用户:whicky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
复制检测就是检测文档之间是否存在雷同现象,并将检测结果报告给用户。文章算法将复制检测技术指纹比对法和词频统计法结合起来,首先对文本进行预处理如滤除介词、冠词等,采用指纹比对法判断自然段落之间的相似性;然后将一个自然段视为一个小的整体来构成整个文档,采用基于词频的加权统计法判断全文的相似性。
其他文献
目的:回顾性探讨前列腺增生患者经尿道前列腺电切术后出血情况的处理。方法:盲选法选取我院2016年5月--2018年3月收治的前列腺增生患者96例,均给予经尿道前列腺电切术治疗,依
双曲肘合模机构是热室压铸机的重要组成部分,决定着压铸成形的品质和生产效率。为提高双曲肘合模机构设计的合理性,在满足各工况要求的情况下,增强合模机构的结构紧凑性,从而
情感因素中的焦虑与二语习得之间存在着一定的相关性,许多外语专家认为焦虑会给外语学习带来负面影响。因此,降低学生的学习焦虑可以提高学生的学习效果和成绩。在本文中,笔
近年来,教师职业倦怠的问题已成为教育界关注的焦点,该问题的普遍存在对于教学质量的提高、教师和学生的身心发展有着很大的危害性,如何缓解教师职业倦怠问题已迫在眉睫。
目的调查妇科肿瘤患者主要照顾者心理健康状况,分析主要照顾者心理状况的动态变化与影响因素。方法对101例妇科肿瘤患者主要照顾者于患者手术前一天(T1)、手术后第3天(T2)、
多媒体技术与健康教学相结合,是健康教学改革中的重要途径。本文分析了多媒体技术在健康教学中的应用原则和方式,探讨了多媒体技术在健康教学中的应用效果,提出了健康教学应以教
目的利用recA基因序列分析对云南省两起酵米面食物中毒案例中伯克霍尔德菌属病原菌进行分类鉴定。方法对基于16S rRNA序列分析鉴定为伯克霍尔德菌属的4株分离菌株和1株唐菖蒲
目的 探讨ER、PR和HER2联合检测对乳腺癌脑转移瘤发生的预测价值。方法 选取135例乳腺癌患者作为观察对象,其中24例出现脑转移瘤患者为转移组,111例非脑转移瘤者为非转移组。
场域理论是贯穿法国社会学家布迪厄社会学理论各层面的核心概念,引入场域理论对少数民族宗教文化的研究具有方法论的意义。活跃于大理白族农村地区的宗教信仰组织莲池会是在
本文介绍了用于过流保护的PTC传感器的制作,探讨了它的阻温特性与过流保护之间的关系.实验表明:PTC传感技术在无触点自恢复过流保护上有很大的应用前景.