基于文档复制检测技术的研究与实现

来源 :辽宁工程技术大学 | 被引量 : 0次 | 上传用户:yangliu349
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本复制检测就是判断一篇给定文档是否抄袭﹑剽窃了或者复制于另外一篇或者多篇文档的内容,复制不仅仅是原封不动地照搬,还包括部分复制、对原作的移位变换﹑同义词替换以及改变说法重述等方式。本文通过对文本复制各种手段的分析,提出了文章相似度检测框架( PSEF )和句子相似度检测框架(SSEF ),并给出了一个实现——平行相似度模型(PSM);应用“分词”从逻辑上划分句子边界,解决了COPS等系统在边界处理上的问题;使用比较法代替数值法,解决了CHECK等大多数系统需要手动设置域值的问题。以分词为语义导向,通过句子清理,更准确地检测出文档复制的部分。以LCS算法为基础,用java语言给出了相应的框架实现。相关的实验结果表明,这些方法和手段对于复制行为的检测可以达到预期的检测效果。
其他文献
近几年,随着软硬件技术的发展,互联网也有了长足的进步,网络接入速度越来越快,网民人数越来越多,网络资源的规模更是呈爆炸式的增长。搜索引擎可以根据用户输入的关键词,在浩
分布式数据库系统是数据库系统与计算机网络系统相结合的产物。数据分配问题对整个分布式数据库应用系统的改进、数据的可用性、分布式数据库的效率和可靠性有很大影响。国内
伴随着移动通信与计算技术的结合发展,移动终端拥有了更广泛的用途,移动终端被人们使用来处理和存储各种数据比如名片、日程安排、邮件乃至文档、目录等各种结构化或非结构化
随着科学的发展和时代的进步,人们在工业生产和工程实践过程中遇到的问题,越来越多地具有规模大、复杂性、约束性、非线性、不确定性等特点,在生产实践和科学研究的诸多领域
牛乳体细胞的自动识别,对提高牛乳质量检测和奶牛乳腺炎诊断的效率和准确性具有重要意义。而牛乳体细胞中存在的细胞堆积现象,严重影响了其他特征参数的分析。目前,存在的大
随着计算机网络的快速发展,网络安全问题日益突出。依靠传统的数据加密、防火墙、安全认证、反病毒等安全技术,不足以抵抗现代的入侵与维护系统的安全。近年来入侵检测(Intru
在建设和谐社会的今天,对社会稳定提出了更高的要求,而传统的报警和求救方式缺乏实时性和隐蔽性,信息量也是有限,所以建设一种有效、信息量丰富的综合报警系统成为了当务之急
算法演示作为软件可视化的一个重要分支,在计算机算法教学和研究中扮演着重要角色,而算法演示中的人机交互对提高算法演示的积极效果有着非常重要的作用。近年相关研究指出,算法
信息检测技术是目前信息学科的前沿研究课题之一,在生产发展上起重要作用。尽管各种信息检测技术在不断地发展,一定程度上解决了检测领域上存在的问题,但对于怎样检测无法检
算法和建模是软件开发中两个最为重要的部分,算法设计以及实例建模的优劣直接影响着软件工程的质量,因此设计合理的算法并建立正确的模型是提高软件质量的关键。本文首先介绍