文本自动比对研究与应用

来源 :南京信息工程大学 | 被引量 : 3次 | 上传用户:qgdjyahaha
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网与计算机技术的迅速发展,各种资源呈爆炸式增长,共享程度越来越高,给工作和生活带来极大的便利,成为人们传递和交流信息的重要平台。但是与此同时,造成了网页重复率高、知识产权侵占以及信息的泄密等问题。如何快速、准确的检测出相似内容已成为我们研究的焦点。另一方面,文本相似度比较作为自然语言处理的重要基础与内容,被广泛用于文本分类、聚类、信息检索、文本复制检测等领域,一直受到众多学者的普遍关注与研究,因此,文本相似度比较是解决这些问题有效的方法之一,在理论和实际应用中都具有重要的意义。本文围绕以上问题,进行了深入的研究与实践。论文主要工作包括:首先,将文本相似度比较技术首次引入到涉密文本的泄密检测中,为目前涉密文本的泄密检测仍然停留在人工检测的基础上增加了一种有效的方法与途径。主要工作有:一是提出了一种基于自然语言处理的文本泄密自动检测技术。该方法以基于VSM的相似度比较模型为基础,结合中文分词、文本加密、Web信息抽取等其它自然语言处理技术,旨在不泄密的前提下,通过不可逆加密算法,利用Web信息抽取技术,对密文进行相似度比较,检测特定网站是否存在涉密文本以及泄密的程度。二是对于特定网站内容的获取研究,结合视觉分块的Web信息抽取优点,提出一种基于正则表达式的深层次网页文本抽取方法,以此作为比较的数据源。其次,将目前文本相似度检测技术与其他自然语言处理技术相结合,实现了基于自然语言处理的文本相似度检测系统。该系统实现了篇章、段落到语句的多层次检测;拓宽了比较方式,功能上涵盖了普通文本与涉密文本的检测;数据源包括本地文本和互联网文本信息;相似部分能自动定位标注。本文的主要特色与创新之处:1、将文本相似度比较技术首次引入到涉密文本的泄密检测中。有效的解决目前泄密检测仍采用人工检测方式的问题,并且保证涉密文本的安全性。2、设计并实现了基于自然语言处理的文本相似度检测系统。该系统具有多层次、多数据源、多比较方式、多功能以及多线程计算的特点。
其他文献
煤矿生产过中胶带机、提升机、通风机等大型机电设备起着至关重要的作用。大型设备的故障常常发生是由于滚动轴承发生故障引起的,所以一旦其发生故障异常,将不仅仅会严重影响
随着网络带宽和用户自行发布内容的稳步增长,Web包含了日益增多的流媒体内容。提高流媒体传送质量,改善Web服务性能成为近年来国内外的研究热点。代理缓存技术是重要的流媒体
网页自动分类可有效的提高互联网信息的组织与应用,在建立网页自动分类模型时,需要大量的可信的已标注数据集。相对中文网页来说网页数量增长迅速,已标注数据集缺乏,然而数据
人脸识别研究就是要赋予计算机根据人脸面孔识别人物身份的能力,该研究具有重要的理论价值和巨大的应用前景。经过四十多年的发展,人脸识别研究已经取得了重大进展,但仍存在
随着数字图像系统的快速发展、性能的优化,以及相应的图像信息的获取、显示、存储技术的进步,人们对图像质量的要求越来越高,负责摄取图像信息的设备也起着越来越重要的作用
随着网络技术及网络应用的不断发展,对入侵检测系统的实时性和智能化提出了更高的要求。通过将数据挖掘技术应用到入侵检测技术中,能提高对网络数据的处理能力,进而达到提高
随着计算机技术的快速发展以及在相关领域的推广应用,计算机技术展现出了其超强的计算能力和高速、智能、安全可靠的优越特性,为工程的安全提供了重要保障。冻结法凿井是一个
混合动力汽车(Hybrid-Electric Vehicle,简称HEV)在减少尾气排放、降低能源消耗等方面起到了日益重要的作用,然而生产成本高、使用寿命短的动力电池组却成为HEV大规模应用的
随着信息技术和计算机网络的飞速发展,网络安全也越来越成为人们关注的焦点。如何迅速的发现入侵行为,并且主动地对网络进行安全防护成为网络安全领域的一个难点,这时入侵检
随着航空业务的蓬勃发展,空管自动化系统得到了广泛应用,在这种情况下,仍旧依赖国外进口的空管自动化系统已经不能满足我国对自动化系统多方面的需求,因此,开发具有自主知识