论文部分内容阅读
随着计算机技术、通信技术和网络技术的迅猛发展,互联网已成为人们获取信息的一种重要途径。网络大数据背景下,互联网中文本数据的数量和价值呈指数增长,复制网络中文本的现象越来越多,相同和近似文本也越来越多,不仅极大的浪费了网络存储空间、降低检索效率,而且不利于电子文本知识产权的保护,如何快速检测文本是否复制于因特网文本已成为急需解决的问题。本文在对已有文本复制检测方法进行分析研究的基础上,提出了一种基于元搜索引擎的文本复制检测方法,本文主要工作包括:首先对已有文本复制检测方法进行研究,主要包括文本复制检测的基本原理、典型的文本复制检测系统的实现方法、通用的文本复制的基本流程,并对实现文本复制检测常用到的关键技术以及关键问题的解决策略进行分析研究,主要包括中文文本的预处理技术,如中文文本的分词、词性标注,文本块的选择策略和文本特征的选择策略等,为设计新的文本复制检测系统中的关键问题提供了解决思路。然后结合当前复制检测网络文本的行为越来越多的状况,基于元搜索引擎的优势,提出了一种基于元搜索引擎的文本复制检测方法。其中,为减少请求元搜索引擎的次数以提高系统效率,结合词性信息改进TF-ISF算法抽取文本特征句子;为获取更加全面的疑似复制文本,以特征句子的线索词作为请求元搜索引擎的查询词获取网络在线参考文本集;由于传统基于LCS的句子相似度计算方法忽略了最长公共子序列数量对句子相似度的影响,结合最长公共子序列数量的改进LCS句子相似度计算方法。最后设计文本复制检测系统进行实验验证。使用SOGOU-T中文数据集对改进的TF-ISF方法和基于元搜索引擎的文本复制检测方法的效率和F1-score进行实验分析。