韵律结构信息在自然语言处理中的应用研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:mylovesm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前多数的自然语言处理任务尽管都基于数据驱动的方法,但引入语言学知识能有效改善性能却已成为研究人员的共识。语言学家已经发现韵律信息包含了重要语言学信息,认为韵律不仅承载着句子的结构、语义、情感和功能等信息,并且还可以将任何一个句子非递归地从高到低、依次分解,最终将句子表示成韵律层次结构树的形式。因而韵律是一种潜在的、可用的信息。但是,在非语音相关处理的自然语言处理应用中引入韵律信息的尝试还很少。本文则在这一方向上开展了若干研究,具体包含两个方面:  1.引入韵律结构信息的依存语义空间模型改进研究。主要考虑利用韵律结构信息对padò所提出的依存语义空间模型进行改进建模。包括两种改进,第一种改进基于韵律结构边界,完善依存上下文路径的值函数;第二种改进,在原有依存上下文的基础之上,在模型中扩展韵律上下文,结果使得模型包含两种上下文环境,并且模型能够获得更全的上下文。改进后的语义空间模型融合了词语分布、句法、韵律等多种信息来源的语言知识。词义消歧和相关度计算实验均表明,引入韵律结构信息后的依存语义空间模型比传统模型在性能上有了显著的提高。  2.引入韵律切分约束的层次短语翻译模型改进研究。主要考虑利用韵律信息对目前主流的层次短语翻译模型进行改进。包括两种改进,第一种改进利用韵律层次结构划分信息指导规则抽取,希望能减少模型的规则冗余问题;第二种改进则在翻译模型中引入了新的韵律切分特征函数。实验证明,第一种改进方法能在基本保持原翻译质量基本不变的情况下,降低层次短语模型的规则表规模。第二种改进方法,则能显著提高系统的翻译性能。
其他文献
为了提高数据中心所有物理服务器的资源利用率和能源使用率,可以通过动态整合虚拟机的方式来实现。虚拟机动态整合的主要实现方式有物理服务器之间虚拟机的实时迁移和动态地
人体行为识别是计算机视觉的研究难点与热点,在智能视频监控和运动分析等领域有着广泛的应用前景。但目前大部分研究者主要针对视频中的行为展开研究。然而,人类的视觉往往根据
我国的蒙古文信息技术标准体系正在构建之中,由于缺少对蒙古文信息处理产品标准符合性检测的工具,难以强化已有蒙古文信息技术标准的实施力度。针对这种情况,本文对蒙古文信
随着信息化、数字化技术的发展,作为信息中枢的图书馆越来越多的承担起信息网络中心节点的重任。信息发布网站、网络化图书流通管理系统、电子资源的网络平台等各个系统的使用
在后基因组时代,系统地分析和理解生物体内蛋白质问如何通过交互来完成生命活动是—个重要的挑战。分析蛋白质网络的结构特性,从蛋白质网络中挖掘蛋白质复合体和功能模块以及
随着现代科技的发展,对技术支持的需求也增加了。如果没有强大的电脑资源的支持,大型工程项目很难进行。  复杂数学计算和大量投资的要求,让企业寻求新的解决方案,计算机辅助设
本文详细分析了数学公式的逻辑结构特点和现有数学公式检索系统所采用的检索机制,并结合当前数学公式检索系统的研究成果,进行了关于数学公式索引和检索方面的研究工作。首先,通
随着机器设备的迅速发展和应用领域的不断扩大,快速准确地采集和捕捉机器的故障信息,已成为保障工业生产效率和安全的重要基础。声音作为机器工作时发出的一种音频信号,必然
构建无线传感器网络时,人们要事先布置少量的锚节点,这些锚节点的位置信息已知。锚节点可以通过一些方式进行自我定位。由于锚节点自我定位的成本较高,在网络中不可能使每个节点
高性能科学计算的需求不断增加,而传统电子计算机的元器件制作工艺已近极限,科学界正在寻找全新的计算模型,来突破现有计算体系的限制。生物计算以其并行性高、能耗低、信息存储