基于元搜索引擎的文本复制检测方法研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:ivyJZ2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术、通信技术和网络技术的迅猛发展,互联网已成为人们获取信息的一种重要途径。网络大数据背景下,互联网中文本数据的数量和价值呈指数增长,复制网络中文本的现象越来越多,相同和近似文本也越来越多,不仅极大的浪费了网络存储空间、降低检索效率,而且不利于电子文本知识产权的保护,如何快速检测文本是否复制于因特网文本已成为急需解决的问题。本文在对已有文本复制检测方法进行分析研究的基础上,提出了一种基于元搜索引擎的文本复制检测方法,本文主要工作包括:首先对已有文本复制检测方法进行研究,主要包括文本复制检测的基本原理、典型的文本复制检测系统的实现方法、通用的文本复制的基本流程,并对实现文本复制检测常用到的关键技术以及关键问题的解决策略进行分析研究,主要包括中文文本的预处理技术,如中文文本的分词、词性标注,文本块的选择策略和文本特征的选择策略等,为设计新的文本复制检测系统中的关键问题提供了解决思路。然后结合当前复制检测网络文本的行为越来越多的状况,基于元搜索引擎的优势,提出了一种基于元搜索引擎的文本复制检测方法。其中,为减少请求元搜索引擎的次数以提高系统效率,结合词性信息改进TF-ISF算法抽取文本特征句子;为获取更加全面的疑似复制文本,以特征句子的线索词作为请求元搜索引擎的查询词获取网络在线参考文本集;由于传统基于LCS的句子相似度计算方法忽略了最长公共子序列数量对句子相似度的影响,结合最长公共子序列数量的改进LCS句子相似度计算方法。最后设计文本复制检测系统进行实验验证。使用SOGOU-T中文数据集对改进的TF-ISF方法和基于元搜索引擎的文本复制检测方法的效率和F1-score进行实验分析。
其他文献
近年来,伴随着计算机网络技术,存储技术等高速发展,继分布式计算,并行计算,网格计算之后,云计算技术开始逐渐成为学术界和工业界广泛关注的主流技术。云计算技术,将传统的信息技术资
随着计算技术的发展变革,人们开始越来越重视人与计算机之间的交互问题,现如今,计算机技术已经极大的改变了人们的生活,同时,计算技术的发展也对人机交互方式提出了更高的要
一直以来计算模型的不断演化,根本原因是计算机软件和硬件技术的快速发展。云计算模型就是在这种技术背景下产生的,它采用创新的计算模式,使用户可以自由获得计算、存储服务,并按
随着科技的飞速发展和进步,每日的大宗市场交易、股票期货金融领域、医疗行业积累了大量的数据,如何利用这些数据,在海量数据库基础上,纵向挖掘出有价值的信息成为研究热点。相应
通过对无线传感器网络(WSN)路由的研究与分析,引入k-平均聚类算法对节点进行分簇。该分簇算法可以使每个簇中节点到达簇头节点的距离之和为最小,有利于减少网络节点能量的消
随着互联网技术的发展,智能设备的普及,人们可以随时随地采集并以文本、音频、视频、图像等其他载体形式记录和分享信息,带来了多媒体信息的迅速膨胀,同时计算机可读的音乐学科知
科学研究早已发现,情感在学习、感知、理性决策以及其他的认知行为中,有着非常重要的影响。情感不只限于艺术、娱乐和社交,还影响着理性思维的根本机制。当前,人工智能的研究
随着物联网的快速发展,作为物联网的关键组成部分,无线网络承担着越来越高的业务要求。人们开始要求无线网络能够处理更多的实时业务,例如视频会议,视频多播,VoIP,网络游戏等日常业
随着微电子技术的快速发展,大量的嵌入式产品进入到百姓的生活之中,高效的开发产品具有成本低、体积小、功耗低的特点。软硬件协同设计是软硬件划分的主流方法,这种方法避免了传
随着计算机技术的飞速发展,无线传感器网络技术也日益成熟,基于无线传感网络技术的智能控制系统的应用也越来越广泛,这给高校信息化建设提供了新的思路。高校教室因其特有的功能