基于语义理解的文本相似度计算研究与实现

来源 :中国科学院大学 | 被引量 : 24次 | 上传用户:Erinhim
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本相似度计算主要是通过建立算法模型计算两个或者多个文本信息之间内容、语法、结构的相似程度,它是实现文本信息处理的一项关键技术,很多重要的研究应用都与它相关。文本相似度计算大多采用词频统计的方法,其中最具代表意义的是向量空间模型VSM,它将文本表示成特征项向量,利用特征项向量夹角余弦表示文本相似度。除此之外还有基于广义空间向量模型GVSM算法、隐形语义索引LSI算法、基于字符串的匹配算法、指纹识别算法等等。基于语义理解的文本相似度计算方法,通常以某种知识库作为依据,加入词语语义、句子语义、段落语义等因素,计算结果更加适用于实际应用中。传统的《知网》文本相似度算法是建立在VSM模型的基础上,将文本所有特征项向量表示为文本《知网》义原空间向量,加入了对词汇语义因素的考量。本文在原有算法的基础上做出改进,一方面利用《知网》的义原层次结构,对义原的相似度计算方法做出改进,添加语义深度和语义密度因素,使计算结果更加完善,另一方面在原有算法的基础上加入段落相似度,增加段落相似度对整个文本相似度的影响。本文采用文本聚类方法对提出的本文算法有效性进行验证,通过对文本聚类的实验,证明了算法性能的提高。本文根据相似度算法理论研究,采用J2EE技术构架和相关开源技术实现文本相似度系统。本文系统设计根据功能划分为四个模块:《知网》数据处理模块、文本预处理模块、文本向量构建模块、综合计算模块,对于不同模块给出设计和实现方案,系统采用NLPIR、Lucene、SSH等开源软件完成对文本义原的表示和相似度的计算过程。最后本文实现的相似度系统应用到实际的工程中,取得了不错的效果。
其他文献
大数据时代背景下,数据的价值受到了前所未有的重视,传统的数据管理与分析技术由于其自身的限制无法应对大数据带来的挑战,亟需新的理论和技术来支撑大数据的分析和处理。连接操
在分布式计算背景下,作者参与的多个项目与在线文档处理、数据备份相关。本人在项目中承担两个任务:改进文档的版本备份算法和优化大文件在广域网中传输。从中产生的两个原创性
瓦斯爆炸是我国煤矿生产中最常见的灾害事故,目前治理瓦斯爆炸的主要手段是瓦斯预测。专家系统具有适应性强、可靠性强、成本低、响应快等优点,并具有持久性、复合性和解释说
目前,高校校园中信息(如教学、就业)的发布、获取主要通过校园网、电话等形式,其缺点是缺乏移动性、实时性,而传统的短信发送方式只是手机终端之间的文本复制,无法根据用户的
传统软件开发过程以概要设计和编码为驱动,存在着大量重复性开发。日益复杂的系统结构、需求的不断变更、平台之间兼容性所导致的复用性、互操作性差等问题,使得传统的软件开
近年来随着云计算的迅速发展,“计算即服务”的理念与客户机/服务器(C/S:Client/Server)计算模式得到越来越广泛的应用。计算资源通过在不同层次上的封装,以服务的形式提供给最终
学位
目前软件技术在生产环境中的应用越来越广泛,在为我们提高生产速度的同时也为我们带来了前所未有的难题,过于臃肿的软件系统和日益变化的需求是目前软件面对的重大挑战。如何
大气CO2作为主要的温室气体,对温室效应及气候变化有着重要的影响,研究大气CO2变化规律以控制其排放,具有重要的意义。但是,由于CO2在大气中的浓度和梯度都比较低,导致对它的
学位
随着信息化的发展,海量存储的需求日益增长。提供海量存储数据管理功能的机群文件系统正受到学术界和产业界的广泛重视。由于海量存储应用具有超大规模文件管理和超大规模数据
Windows Rootkit最早可追溯到DOS时代的木马程序,当时DOS系统的安全机制本身很不完善,因此Rootkit作为恶意软件的辅助工具并未受到攻击者的重视。1999年,以GregHoglund发布NT Ro