模式方法在汉语句子相似度计算中的应用研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:jianfei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句子相似度计算是EBMT系统实现的关键,它直接关系到EBMT系统本身的翻译质量.现有的几类句子相似度计算方法中,基于词的方法虽简单、流行,但由于对句子不加任何句法结构分析,所利用的仅为句子的表层信息,即组成句子的有关词汇的词法和语义信息,因此,在判断句子整体结构相似方面有欠缺:基于完全句法分析的方法对句子作完全的句法结构分析,具有较准确的相似性判断,但由于在句法结构的分析上引入规则较多,因此,丧失了EBMT在知识获取方面的优势;基于折中考虑的方法在判断句子相似时综合考虑句子的整体框架结构信息与组成词汇语义信息.该文提出的基于模式的方法实质上属于第三类,只不过在句子的整体框架结构方面我们仅考虑一些主要的成分,在句子的组成词汇语义方面我们仅考虑一些基本的词汇,并借助既能反映一个句子的主要成分结构又能表达一个句于的基本词汇语义的抽象的句于结构形式——模式来实现.为此,该文: (1)基于"谓词(或特殊词)十常见搭配成分"构造书面汉语中常用句子模式.(2)基于统计与规则相结合的方法进行书面汉语中常用短语的自动划分与标注.(3)基于词性标记、短语标记及上下文特征词汇进行书面汉语中常用谓词的自动识别. 由于该文是通过句子的模式来把握句子的整体框架结构与组成词汇语义,并基于词的方法判断两句模式的相似,进而判断两句的相似,因此,比一般基于词或基于完全句法分析的方法整体上要准确和高效.
其他文献
随着软件技术的发展,程序的规模逐渐增大,复杂度也逐渐增加。在软 件的开发过程中,完全依靠人力进行分析测试效率太低,而且不能保证软件 质量。测试过程中的一个主要问题是生成
该文分析了成本控制系统的特点,提出了适合离散制造类型企业的成本计划与控制模型,并阐述了成本计划的概念、特点,给出了成本计划的定义,依据成本控制的原则,定义了成本体系
信息网络时代的到来,使得互联网新闻信息急剧增长,面对着交错纷杂的新闻信息报道,人们在从中获取社会热点话题,掌握社会信息动态,了解网络信息舆论变得越来越困难,网络热点新
该文详细探讨和分析了软件Agent技术的产生和相关技术及其在网络信息检索方面的应用.针对Agent信息资源的特点和信息检索系统的现状,该文提出了一个基于智能Agent技术的网络
该文首先介绍了统一消息的定义、特点、发展阶段和发展现状;其次对统一消息的技术基础即计算机电话集成技术(CTI)进行了深入的分析和研究,计算机电话集成技术在语音通信和计算
论文首先对该次AES标准的评选过程作了概括性的介绍,在阐明了算法所使用的数学知识和设计原则基础之上,逐步地详细分析了该算法的设计过程,对算法所使用的核心——轮变换函数
该文共分两个部分:数据结构网络课件系统;DSNCS和面向平面几何角度计算的智能测试系统ITSGAC.第一部分:教育部功能“数据结构网络课件系统DSNCS”的部分设计与实现,其中包括部
该文针对现有搜索引擎中存在的问题,提出了一个结构新颖的搜索引擎——移动式搜索引擎,其重点在于改进了搜索机器人的工作模式.它将移动计算作为搜索机器人的工作平台,提出了
视频和图像压缩在多媒体应用这一为工业界带来新的机遇的领域中扮演了极其重要的角色.随着Internet和无线通信的发展,视频和图像编码的基本目标正在发生着改变.传统的视频和
网络安全在Internet中起着越来越重要的作用.网络安全保障的实现方法一般可分为两大类:以防火墙技术为代表的被动防卫型和建立在加密、安全认证机制上的开放型网络安全保障系