基于动词次范畴化的汉语句法分析后处理方法的研究

来源 :黑龙江大学 | 被引量 : 0次 | 上传用户:982114
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句法分析是自然语言处理的一个基本问题,其主要任务是判断输入的单词序列能不能构成合乎语法的句子,构造出合乎语法的句子的句法结构,也就是应用语法规则或其它知识,依据该输入句子中单词之间的线性次序,得出一个非线性的数据结构。它有很多应用,比如机器翻译、信息获取、自动文摘等都有着重要的作用。在基于统计的句法分析方法中,最关键的两个问题是建立消解语言歧义统计模型和句法分析后处理的设计,它们决定着句法分析系统的分析正确率和效率。本文从事的工作则主要从句法分析后处理方面入手,提出了一个基于动词次范畴化的汉语句法分析后处理的方法,主要研究工作如下:1.研究现有常用的统计句法分析模型和句法分析算法,并对其进行综合分析比较,而且解释了动词次范畴化句法模式的理论、形式化描写以及次范畴化和对应的句法树之间的关系。2.用统计句法分析模型产生n-best句法分析树输出,通过用基于转移的错误驱动的学习方法来进行一步改善动词次范畴化的提取,进行相应的重排序来寻找最优的句法分析树,并进行了相应的基于动词次范畴化规则方法的句法分析后处理实验。3.通过用基于转移的错误驱动的学习方法来进行一步改善动词次范畴化的提取,达到改善句法分析的最优解,并进行了基于动词次范畴化统计信息方法的句法分析后处理实验。本文的实验采用了中文信息学会CIPS-ParsEval-2009竞赛语料作为训练语料,它来自于清华汉语语料库(TCT),并用中文信息学会CIPS-ParsEval-2009测试数据进行实验。实验表明本文最好的结果F1值达到88.759%接近中文信息学会句法分析CIPS-ParsEval-2009最好结果F1值88.77%,有利的证明本文的基于动词次范畴化的汉语句法分析后处理方法具有较高的句法分析效率和正确率。
其他文献
在信息技术朝着高性能、多样化、普适化和智能化等主要方向持续发展的今天,因特网上的多媒体业务变得多种多样。组播通信能够很好地解决多个用户的接收问题,其实质就是针对个
Web技术的快速发展使微博成为人们进行沟通与交流的一种新型社交网络平台。在该平台上,用户可以自由地发表对某些话题的观点与看法。微博内容简单、发布容易的特点使其每天产
网络技术,数据库及数据仓库技术的飞速发展使得数据大量堆积,为从大量数据中发现隐含的知识信息,数据挖掘技术得以出现。随着数据量的急速增长及人们对隐含知识的迫切需求,数
为解决基于身份密码体制的密钥托管问题,2003年,Al-Riyami和Paterson提出了无证书公钥密码体制。无证书公钥密码系统和基于身份的密码系统一样,无需CA颁发的数字证书来认证公
形式概念分析是一种概念化知识处理的有效工具,现在已广泛应用于知识发现、软件工程、信息检索、数据库管理、Web挖掘等很多方面。随着网络的发展和数据库规模的增大,数据库
六脉渠是古广州城在水环境治理方面的一个成果,它主要有六条排污、防洪、抵御海水侵袭、通航的大水渠组成,是我国古代广州城的主要水系网络。现在,广州城的水系已经不用六脉
互联网时代商业模式的重要作用已经得到社会各界的高度重视,企业之间的竞争已由产品、渠道、价格等竞争转变成商业模式之间的竞争。电子商务和移动电子商务作为互联网时代两
在获取图像的过程中,存在很多的因素会导致获取到的图像质量下降,如采集设备自身的光学成像系统的成像质量差,大气湍流、扰动,目标对象的相对运功,噪声造成的图像污染等。图
近年来,web服务作为一组构建面向服务体系(SOA:Service Oriented Architecture)解决方案的标准,已经成为互联网上应用程序之间进行交互的主流技术。但是,随着互联网应用的不
量子信息学是建立在量子力学与经典信息学基础上的,以量子状态载荷信息,实现信息存储,并遵从量子力学规则对信息实施处理与传输。量子信息学与遗传算法的结合,能有效地避免传