汉语句子相似度计算技术及其应用

来源 :北京信息科技大学 | 被引量 : 9次 | 上传用户:ahyangqi1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语句子相似度计算是中文信息处理领域中的一项基础研究工作,这方面的研究已经被应用到很多相关领域。比如在基于实例的机器翻译、基于常问问题库的自动问答系统、信息检索等领域中,句子相似度计算都扮演者非常重要的角色,它的研究成果直接决定着某些相关领域的发展状况。因此,如何衡量两个句子的相似程度成为人们长期以来的一个研究热点和难点。在汉语句子相似度的研究过程中,本文从汉语句子的词形、语义、句法结构三个方面的特征分别进行了研究,针对基于这三种特征的句子相似度计算方法的优缺点,对基于语义特征的方法进行了改进,并融合这三个层次的特征,提出了一种融合多种句子特征的汉语句子相似度计算方法。最后,实现了一个句子相似度计算的应用实例——基于常问问题集的中文自动问答系统,并应用此系统,设计了两组实验验证了本文提出的汉语句子相似度计算方法的可行性及有效性。本文完成的主要工作有以下几个方面:1.研究了汉语词汇语义相似度及其计算方法。由于词语是构成句子的最基本的语法和语义单位,在研究句子相似度之前有必要先了解词语的相似度计算技术。因此,本文研究了目前常用的两类词语相似度计算方法,分析了这两类方法的优缺点,并深入研究了《知网》以及基于《知网》的汉语词汇语义相似度计算方法。2.改进了基于语义特征的句子相似度计算方法。由于目前的句子语义相似度计算方法都只考虑了句子中词语之间的同义、上下位等语义关系,并没有考虑反义以及否定语义关系,而反义和否定语义在很多情况下会使句子的语义发生很大变化。因此,本文考虑了词语之间的反义和否定关系对句子语义的影响,使句子的语义相似度计算更加合理。3.提出了一种融合多种句子特征的汉语句子相似度计算方法。本文重点研究了基于句子的词形、句法结构和语义信息三方面特征所设计的三类句子相似度计算方法,分析总结了每类方法的优缺点,针对它们各自的优缺点,综合考虑了这三个层次的特征对句子相似度的影响,并结合本文改进后的基于语义特征的相似度计算方法,提出了一种融合多种句子特征的汉语句子相似度计算方法,从更多角度来刻画句子的相似程度,使句子的相似度计算结果更符合人们的逻辑判断结果。4.设计实现了一个基于《计算机网络》课后习题集的自动问答系统,并用该系统设计实验验证了本文提出的句子相似度计算方法的可行性和有效性。
其他文献
<正>文[1]中给出了等差数列和等比数列的一个统一性质,笔者经过思考,给出了几个推广的结果,现展示出来和大家交流.本文约定m≥t≥l≥n,m,n,t,l∈N~*,因为定理中都有条件m+n=t
以955名高中生为被试,使用数学性别刻板印象解释偏差问卷、外显数学性别刻板印象量表和数学焦虑量表,并收集学生的数学考试成绩,调查高中生数学性别刻板印象和数学焦虑的状况
外生菌根(Ectomycorrhiza,ECM)作为生态系统中广泛存在的互惠共生体,在生态系统中的碳素和养份循环中起重要生态作用。壳斗科(Fagaceae)植物是我国海南热带山地雨林优势植物,
该文基于不可压缩黏性流体的N-S方程和VOF方法,利用CFD商业软件FLUENT及其二次开发功能,发展和提出了动边界造波、多孔介质消波等多种数值方法,建立了可有效模拟弱非线性波的
为了使小学生在有限的时间内能够迅速掌握并提高立定跳远的成绩,文章以橡皮筋为主线与学生的不同位置关系为探究内容,从垂直上方、前上方、前下方及前方等四个方面来探析。
目的:探讨巩膜隧道小切口白内障囊外摘除(ECCE)术并人工晶状体植入的临床疗效.方法:对147例(168眼)老年性白内障患者,在上方角膜缘后2 mm处切口做水平状或反眉状弦长5.5 mm半层巩膜
<正>2011年高考全国卷第21题、2005年湖北卷(理科)第21题和2002年江苏卷(理科)第20题均为圆锥曲线与四点共圆相结合的高考题.由于试题难度大,知识面广,因而高三学生解答较困
论范旭东的企业家素质李玉范旭东,中国近代化学工业的开创者和奠基人,毕生致力于"实业救国"、"科技强国"的伟大实践,谱写了一曲曲可歌可泣的爱国创业歌。范旭东之所以能从一个身无分
变更是指在项目生命期中各种原因引起的合同基础的变化。文章通过对荔湾3-1大型组块建造过程中发生的变更浅述了目前国内海洋工程项目的变更现状和变更分类以及如何编制变更
现代吊顶,其本质的定义是室内建筑电器和电气装置的承载体,并兼具装饰、防护功能。作为室内电气中最主要的组成,基于功能性和装饰性的需要,照明灯具的设计与安装使用越来越多地与
会议