科技项目申报文本辅助检测系统研究与实现

来源 :华东交通大学 | 被引量 : 0次 | 上传用户:zkk81950868
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着国家对科技工作的鼓励及在资金上的大量投入,科技工作者对科研的热情高涨,项目申报的数量也越来越多。然而由于网络的普及与发展,人们获取信息的途径也愈发广阔,这势必会给科技项目评审工作者在项目形式审查过程中带来很大的困惑:对于数量庞大的项目申报书,如何判定项目是否重复申报。而仅通过人工形式进行审查将是不现实的,因此设计一个文本辅助检测系统是非常有必要的。本文针对江西省科技项目申报文本的结构特征,结合语义分析方法来计算文本的语义相似度,并实现了一个科技项目申报文本辅助检测系统,从而为科技项目评审工作者提供自动、公平的决策支持。本文的主要研究工作如下:(1)从文本检测技术角度研究和总结了现有的几种主流检测技术和原型系统的适用性和局限性,结合系统通用体系结构,提出了本系统设计的体系结构。(2)对现有语义分析方法进行了研究,分析比较了这些方法各自的特点,结合中文语言的特点和现有系统开发的使用情况,本文采用了《知网》这种语言知识库,利用《知网》的词语语义相似度来对文本进行语义计算,并对《知网》无法计算未登录词问题进行了改进,考虑了未登录词的语义计算。(3)本文有针对性的研究了几种文本相似度计算方法,总结了各种相似度计算方法所具有的特点和存在的局限性,提出了一种结合文本结构和语义分析的文本相似度计算方法。本方法的主要思想是:将文本表示成不同语义部分的组合,并对文本不同部分采用不同的语义计算方法,并在计算句子相似度时考虑了语义和词序对其影响。同时将本方法与其他方法进行实验比较分析,验证了本文的方法对科技项目申报文本的检测在准确率和召回率上都有所提高。基于以上的研究,本文将提出的新方法应用于系统中:设计和实现了一个文本辅助检测系统,并详细描述了实现本系统所需要的主要功能模块,包括数据存储模块、文本预处理模块、相似度计算模块和分析模块。通过对系统的运行,结果表明,系统能有效检测出相似项目申报书,并能展示详细的抄袭情况,具有较强的实用性。
其他文献
网上证券期货交易近年来在中国获得了突飞猛进的发展,它具有方便、及时和可获得全面信息等优点,深受广大股民喜爱。然而,个别投资者的账号被不法分子窃取并通过网上交易方式
目前,数据挖掘各项技术的应用是国内外学术界的研究热点。数据挖掘技术在许多商业应用中都取得了十分理想的效果,但是在林业生产过程中,应用数据挖掘成功的例子还不多见。本论文
随着计算机网络技术、电子通信技术的日益普及和发展,信息安全问题已经成为网络环境下各种应用亟待解决的关键技术问题。生物特征是指与人生理或行为特征自动匹配的标识,与人物
随着多媒体技术、网络和通信技术的飞速发展,人们在日常生活和各行各业中越来越多地用到数字图像信息。然而图像信息巨大的数据量给图像的存储、传输和处理带来了极大的不便,
随着互联网技术的快速发展,信息化程度的提高,很多企业数据库的数据量已经从TB级达到PB级。将这些静态的海量数据利用起来,从中挖掘出有用的知识能够很大的程度上增强企业的竞争
互联网己经进入一个崭新的时代,日益成为我们日常生活的一部分,但同时带来的安全问题也日益突出,成为一个不得不重视的问题。嵌入式平台作为一种安全、高效、低成本的平台,已
在复杂三维场景的实时绘制中,实现优秀的光照效果是评判绘制质量的一个重要标准。当今的高真实感光照通常使用全局光照模型,本文以光子映射算法为例阐述高真实感光照信息的预计
基于内容的图像检索技术是近年来研究的热点之一,它试图通过提取图像本身固有的视觉信息来表达、识别和理解图像的内容,并按照相似性度量的方法检索图像。但是人对两幅图像的
近年来,互联网在国际上得到了迅猛的发展,伴随而来的是我们对网络的依赖性也越来越大,这就使网络的安全问题变得非常重要。随着攻击者对网络系统了解的日趋深入,攻击工具与手
随着计算机技术、数据库技术、网络技术的飞速发展和Internet的日益普及,在现实生活中,每一个领域都不断产生海量数据和信息,特别是海量的文本数据。如何自动将这些文本数据进行