基于依存关系的短语结构句法分析与词对齐方法研究及实现

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:harryamarly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网上文本数据的急剧增长,如何利用自然语言处理技术高效地对海量数据进行处理,成为人们关注的焦点。句法分析作为自然语言处理领域的基础技术,是对文本进行深入理解的关键步骤,对其进行深入研究具有重要的理论意义和实用价值。此外,互联网数据中存在着大量的以不同语言表示的信息,人们对理解这些用非母语表达信息的愿望日益增长。双语词对齐技术作为自动获取翻译知识的关键环节,是人们突破语言障碍的重要手段。因此,本文的研究工作主要围绕短语结构句法分析和双语词对齐这两个任务展开。   传统的短语结构句法分析模型和词对齐模型都面临着两点重要缺陷:独立性假设太强,并且缺乏词汇信息的支撑。依存关系描述了词语之间的支配与被支配关系,既蕴含着丰富的词汇信息,也包含了词与词之间的结构依赖关系。同时,依存关系本质上是用来描述语义关系的,而不同语言在语义层面是相通的,因此依存关系是跨越语言界限而客观存在的。根据上述依存关系的独特性质,如果能够合理地将其应用到短语结构句法分析和词对齐技术中,上述两个缺陷将会同时得到解决,这将非常有助于改善短语结构句法分析和词对齐的质量。基于此,本文对如何将依存关系融入到短语结构句法分析和双语词对齐的方法进行了深入研究和探索。论文的主要贡献和创新点归纳如下:   1、提出了一种利用依存结构引导短语结构句法分析的方法   通过对比汉英句法树库中的短语结构树和依存树,我们发现这两种句法结构之间存在两种映射关系:节点映射关系和推导规则映射关系。基于这一发现我们设计了一种新的CKY算法,利用依存树来指导短语结构树的生成。给定依存树的情况下,该算法根据节点映射关系确定待创建的短语标签位置,根据推导规则映射关系确定使用哪些短语标签创建当前的短语标签。在宾州英语树库和汉语树库上的实验结果显示:使用完全正确的依存树时,英语和汉语短语结构句法分析性能的F1值分别达到了96.08%和90.61%;使用MSTParser自动生成的N-best依存树时,英语和汉语短语结构句法分析的F1值分别达到了90.54%和83.93%,均超过了BerkeleyParser的结果。   2、提出了一种基于高阶依存关系的短语结构树重排序模型   通过进一步分析我们发现,上述方法将依存关系作为硬约束的方式对短语结构句法分析进行指导,一旦依存关系中存在错误,将直接影响短语结构句法分析的质量。针对这一缺陷,我们提出了使用高阶依存关系对短语结构树进行重排序的模型。该模型首先为待分析句子生成有约束的搜索空间(如N-best句法树列表或句法森林),然后在约束空间内抽取高阶依存关系特征,并利用该特征对短语结构树候选进行重排序,最终选择出最优的短语结构树。在宾州中文树库上的实验结果表明,该模型性能的最高F1值达到了85.74%,超过了目前宾州中文树库上取得的最好结果。另外,在短语结构树的基础上生成的依存树的准确率也有了大幅提升。   3、提出了一种联合处理汉语分词、词性标注和句法分析的词图框架模型   针对汉语分词、词性标注和句法分析的联合任务,如果直接将其按照传统的管道(pipeline)方式串联起来将会面临错误传播(error propagation)的问题,而简单地使用联合(joint)处理的方式将会导致较大的搜索空间。为此,本文提出了一种新的词图框架模型,该模型首先将汉语句子切分为词图的形式,然后使用基于词图的词性标注系统和基于词图的句法分析系统对该词图进行词性标注和句法分析。为了使词性标注过程和句法分析过程能够优势互补,词图框架模型使用拉格朗日松弛法(Lagrangian relaxation)对词性标注和句法分析进行联合优化,使其生成结构匹配的结果,即句法树的词性层与词性标注结果完全一致。在宾州中文树库上的实验结果显示,该词图框架模型能够显著提高汉语自动分词、词性标注和句法分析的性能,其句法分析的准确率超过了目前最好的联合处理汉语分词、词性标注和句法分析的模型。   4、提出了一种基于依存连贯性约束的大规模双语词对齐方法   依存连贯性是指被两棵互不相交的依存子树所控制的短语,在翻译成目标短语后也不相交。已有的研究工作表明,依存连贯性约束对于双语词对齐任务非常有效,但在已有的研究工作中,依存连贯性要么作为硬约束条件,要么作为判别式模型中的一个特征来使用。将依存连贯性作为硬约束的方法忽略了词对齐中存在着少量的不满足依存连贯性的情况,而判别式方法则存在着不适合大规模词对齐任务的缺陷。本文将依存连贯性作为调序约束,并将其整合到一个改进的隐马尔科夫(HMM)词对齐模型中,该约束通过调整词对齐候选的概率影响词对齐的结果。为了方便参数估计,本文还提出了近似的期望最大化(EM)算法和吉布斯(Gibbs)采样算法,实现了无监督的模型参数训练。在大规模汉英翻译任务上的实验结果显示,该词对齐方法的错误率和基于该词对齐方法的机器翻译质量都有了显著的改善。   综上所述,本论文在将依存关系融入到短语结构句法分析方面和双语词对齐方法方面进行了深入研究,显著提高了句法分析和词对齐的性能。在汉语自动分词、词性标注和句法分析的联合处理方法方面也进行了深入探索,显著改善了已有方法的分析效果。
其他文献
全球市场竞争局势急剧变化,中国要从制造大国向制造强国转变,亟需建立准时交货、快速交货的核心竞争力。订单履行流程是供应链中影响企业订单交付水平的关键业务流程。本文研究
当前,随着大数据时代的到来,全球数据总量呈现爆炸性增长的态势,存储系统的规模也随之不断扩大。而系统规模的扩大势必会带来高故障频率问题,如何提高云存储系统的可靠性成为
随着互联网和SOA的发展,Web服务作为一种面向服务的、分布式的应用技术,也得到了快速的发展。Web服务是一个平台无关的、松耦合的、自描述的、可编程的分布式计算模型,随着Web服
随着半导体工艺、现代集成电路技术的发展,传统的单核结构处理器难以得到更有效的发展。多核体系结构的问世,为处理器设计领域带来了更广阔的的发展空间。与此同时,在星载系统等
管道运输,在煤矿开采、石油化工及天然气等产业中具有不可替代的作用。近年来,塑料管材的应用越来越广泛,已经被大量应用于工业传输液体气体领域。目前国内外管道监测研究主要是
随着web2.0技术的普及和飞速发展,互联网数据出现了爆炸性的增长。为有效存储和管理如此大规模的数据,诸多研究机构和公司都提出了各自的数据存储方案。其中影响最大的莫过于开
近年来,随着运营商的重组以及新的竞争格局逐步形成,面对迅速发展的通讯技术、激烈竞争的市场形势、新业务不短增加,新技术不短涌现,为了满足客户更多更高的要求,提高联通运营商的
概率检索模型是动态信息检索系统的组成部分。概率检索模型的任务是计算文档集合中各个文档的相关得分,其结果是检索系统返回的文档排序的主要依据。概率模型的性能优劣直接影
富媒体资源是指以文本、图片、音频、视频、Flash及其组合为表现形式的数字化作品或素材。作为数字作品中的一种,其应用越来越广泛,由于富媒体资源具有易传播、易复制且几乎无
随着数字媒体设备的迅速发展和广泛应用,多媒体产品近年来呈现出爆炸式的增长趋势。由于在数字图像,视频处理的各个领域:采集、显示、存储、传输、压缩等都需要进行质量评价,因