基于统计的汉语依存句法分析研究

来源 :沈阳航空航天大学 | 被引量 : 2次 | 上传用户:e7889620621
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句法分析是自然语言处理的核心课题之一。依存句法分析是应用依存语法对自然语言进行自动句法分析,具有形式简单、易于标注、便于应用等优点,可运用于关系抽取、机器翻译、本体构建、语义角色标注等领域,具有广泛的应用前景。句法分析方法可分为基于规则和统计的两大类。在早期研究中,基于规则的方法占据主流。但由于其所存在的一些缺陷,80年代中期研究者们开始探索统计的方法。自90年代以来,随着语料资源的获取变得容易,统计方法成为主流。本文使用基于语料库的统计学习方法,对汉语的依存句法分析技术进行了探索。主要包括以下三方面:第一,由于很多汉语树库多采用短语结构的标注形式,依存树库的建设还存在很多不足。所以,国内外不少研究者都尝试将短语结构树库转化为依存树库,转化的第一步就要标注句法成分的中心词。针对此问题,本文提出一种基于层叠条件随机场的统计和规则相结合的方法,来提高中心词识别的准确率,从而有利于树库之间的转化。第二,在汉语依存句法分析中,长距离依存关系的识别是其中的一个难点,也是影响依存分析效果的主要原因。汉语句中的谓词可将一个长句分割为两个短句,从而降低了句法分析的难度。本文采用基于最长名词短语前处理和规则后处理的方法来进行谓词自动识别,为下一步长距离依存关系的分析奠定了基础。第三,本文将汉语依存句法分析分为依存弧和关系识别两步进行。依存弧识别任务转换为词对分类问题,并采用了一个基于动态规划的搜索算法,提高搜索效率。并在此基础上,与MST依存句法分析器进行融合,来提高依存弧分析的准确率。依存关系类型识别任务转换为多分类问题。通过对实验结果的分析及比较,验证了本文方法的有效性。本文前两部分的工作为依存句法分析提供服务,并在不同层面上解决了汉语依存分析中的难点问题。后面的工作主要在汉语依存句法分析上做了理论和技术上的探索。
其他文献
大规模的商业网络存储系统为用户提供了不受地域限制的存储服务,为人们的日常生活和工作带来了极大的便利。免费存储服务FSS(Free Storage Service),如电子邮箱(Email)、网络
网格计算是当今计算机科学领域最新兴起的一项有很高学术价值和应用价值的研究课题。如何高效地使用网格资源即网格调度问题,随之成为研究的重点。任务调度是网格计算的核心
点对点技术(peer-to-peer,简称P2P)又称对等互联网络技术,是一种网络新技术,依赖网络中参与者的计算能力和带宽,而不是把依赖都聚集在较少的几台服务器上。P2P网络的一个重要的目标
随着移动通讯技术的快速发展,越来越多的移动设备具备了摄像功能。由于移动设备的计算能力和电池持续时间通常比较有限,它们往往要求视频编码器比较简单。现有视频编码标准如MP
进化算法求解多目标优化问题已经成为多目标优化领域研究的热点之一,现实中的优化问题通常具备两个或两个以上相互冲突的目标。跟单目标优化问题有唯一的最优解不同,多目标优
移动Ad Hoc网络(MANET)具有独立组建网络、无中心以及网络拓扑结构动态变化、带宽和能源受限等特点。作为一种特殊形式的移动计算机网络,可广泛应用于战场指挥、临时会议、灾难
分布式拒绝服务DDoS(Distributed Denial of Service)攻击是通过占用网络带宽,消耗系统资源,阻塞网络流量,从而造成其他用户无法正常访问目标服务器,是现今网络攻击最常用的
图像质量评价在图像视频处理及计算机视觉应用等领域越来越重要。人类作为图像信息的最终接收者,作出的评价是唯一“正确”的,但是主观评价不能被嵌入到系统中。故研究的目标是
无线传感器网络(Wireless Sensor Networks,WSN)是由大量廉价的集传感能力、计算能力和通信能力于一体的微型嵌入式节点组成的具有动态监控、处理、传输功能的一种先进的网络
随着计算机技术的迅猛发展,计算机图形学的应用领域也越加广泛,从而使得作为计算机图形学重要研究内容的图形图像处理技术越来越受人们的关注。而在此研究领域中,如何较好地