汉语句法分析的重排序技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:sjcameadow
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着网络的发展,现代人对信息沟通和处理的需求越来越迫切,这使得自然语言处理以及相关的应用领域得到了迅速的发展。而由于句法分析在自然语言处理研究中的关键地位及其在各种应用上的光明前景,本文对汉语的句法分析进行了深入的探讨和研究,并且由于重排序方法在提高句法分析性能上的有效性,因此本文把对重排序方法的研究作为本文的主要研究内容。具体的工作如下:首先,本文对当前主流的句法分析模型进行了介绍,并且在宾州中文树库CTB5.0上进行了实验,测试比较了不同句法分析模型的性能。根据对实验结果的分析本文探讨了不同构建模型的方法以及不同模型对句法分析的影响,而这些影响主要体现在对信息的融合,对训练语料的要求,以及对最终句法分析的性能和效率上。其次,本文应用了不同的句法分析模型作为初始模型来进行句法分析的重排序实验,其中初始模型分别采用了概率上下文无关文法(PCFG)模型,Stanford-1模型以及Berkeley模型,而对于影响重排序性能的两个重要因素:特征表示和参数训练,本文进行了如下的设置,特征表示方面,本文主要参考了Collins在他的文章中给出的特征集并进行了稍微的改动,而参数训练方面则采用了最大熵方法作为训练方法。另外本文进一步探讨了不同类型特征对实验结果的影响,分析结果表明重排序模型中的特征选择应考虑初始模型的影响。最后,在对传统重排序方法研究的基础上,本文发现现有的重排序方法对于N-best候选树中所蕴含的信息并没有充分利用,因此针对性地进行了改进并通过相应实验进行了验证。具体的说,在传统的重排序方法中,常常将重排序映射为一个分类问题,而指导训练分类参数的代价函数常常设置为使N-best候选句法分析树中的排名第一的句法分析树和其他句法分析树之间的边界距离(Margin)最大。但是本文发现,在实际情况中,句法分析树之间的顺序是根据该句法树与标准树的相似度值来排序的,也就是说,不同的句法分析树之间没有“质”的差异,只有“量”的差异,而在传统的方法中却常常忽视这一信息。针对此问题,本文提出了两种改进模型:基于相对距离的分割模型和基于多类融合的模型。并且利用这两种模型在PCFG模型作为初始模型的基础上进行了实验。实验结果表明,改进模型使得句法分析的性能有了进一步的提高,在用PCFG作为初始模型的基础上,改进模型比传统的重排序技术又提高了0.9个百分点左右。另外,本文实现了一个多种显示模式的句法分析树可视化系统,该系统提供了三种主要的显示模式来对句法分析树进行展示,分别是“短语模式”,“依存模式”,“骨架模式”。除了对句法分析树给出不同结构的显示外,该系统还可以为重排序中的特征选择提供相应的帮助。
其他文献
无线多媒体传感器网络(Wireless Multimedia Sensor Networks,WMSNs)作为一种新型的无线传感器网络,正在越来越多的被应用到对目标环境的多媒体监控当中。与传统的无线传感器网络
视觉是人类认识自然和改造自然的重要工具。让机器具有视觉功能是一项很有意义的工作,其原理是从图像中获取三维空间场景信息,通过数字图像处理算法和智能分析算法,对它进行描述
随着网络的高速发展,网民数量的不断攀升,各种网上服务行业也随之发展起来并逐渐普及。如今,在线购物、网上支付等基于网络的经济活动逐渐走进了人们的生活,其所带来的支付安全问
高校信息化建设的大力发展推动了源代码在线评测软件由单一的竞赛平台转向多功能的教学辅助系统。但是在这一过程中,并非所有的源代码在线评测软件都能够良好的应用于教学研究
随着移动互联网技术的日益成熟,移动终端如智能手机、个人电脑、PDA等数目逐年递增,普及率也越来越高。越来越多的人希望能够随时随地地进行通信,享受高质量的网络服务。移动自
移动互联的时代随之到来,触摸屏在移动终端的应用也越来越广泛,这样移动设备上的汉字输入模式不再仅仅是拼音输入和笔画输入,因为手写输入在触摸屏上显得更加简单和快捷;但是
在基于位置服务数据的数据挖掘研究中,数据处理能力已经成为了分析的瓶颈。虽然基于MapReduce计算模型人们可以通过多机并行相对快速地完成计算,但是由于MR模型对数据结构及任
随着计算机制造技术和网络通信技术的飞速发展,计算机的处理能力得到不断提升,网络带宽也不断增大。随之而来的各色应用需求和复杂的应用环境,导致分布式应用系统趋于复杂,系统规
随着无线通信技术的迅速发展,出现了多种无线接入网络并存的局面。将不同无线接入技术、不同传输性能的网络融合到一起构成的单个逻辑网络称为异构无线网络。相比起底层接入
随着互联网的发展和普及,Web信息出现了爆炸式的增长,搜索引擎已成为人们从这些海量信息中获取所需信息不可或缺的工具。但在搜索结果中,排在前几位的并不是用户真正所需的网