基于启发搜索与预标注的中文CCG句法分析

来源 :复旦大学 | 被引量 : 0次 | 上传用户:a734266739
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
组合范畴语法(Combinatory Categorial Grammar, CCG)是一种词例化的语法形式,可以通过一阶逻辑实现从语法到语义的自动推理,因此十分适用于需要语义分析的应用场景。同时组合范畴语法提供了相当灵活的语法成分,使得其能够有效地表示许多复杂的语法现象,以及涵盖局部或是非局部的依赖关系。因此组合范畴语法在语义解析、文本推理、自动问答等人工智能任务当中都有非常重要的应用。  对组合范畴语法进行高效的句法分析是当前自然语言处理领域的一大难题。相较于一般的上下文无关语法,组合范畴语法的句法分析要困难得多。主要原因在于其产生的非终结符和语法规则的数量要远远大于普通的上下文无关语法,从而使得其句法分析的复杂度大大提高。  本文针对中文组合范畴语法分析困难的特点,重点研究了如何将两种彼此相互独立的技术共同应用在中文组合范畴语法句法分析上。首先本文使用了预标注算法,通过经典的对数线性概率模型,去除了句子当中那些概率较低的词汇范畴,从而实现了对句子的潜在分析空间进行剪枝。然后又应用了启发式搜索算法进一步加速句法分析过程。最后本文从时间效率和分析精度两个维度对所使用的方法进行了验证。  在研究的过程中,本文主要取得了以下的研究成果:  1.据作者所知,本文是第一次提出了针对中文组合范畴语法的句法分析器,其中使用了生成式模型对中文组合范畴语法进行了上下文无关语法建模;  2.在句法分析过程中结合使用了预标注算法与启发式搜索加速句法分析过程,提高了中文组合范畴语法的句法分析效率,同时还证明了预标注算法能够有效地修正原有算法概率模型当中的错误偏置;  3.在中文组合范畴语法树库语料上对本文应用的句法分析方法进行了实验,量化地分析了所用算法的具体改进效果,无论是句法分析的效率还是精度,实验结果都表明其获得了显著的提升。
其他文献
统计学习理论是一种专门研究有限样本情况下机器学习规律的理论,它不仅考虑了对推广能力的要求,而且追求在现有有限信息的条件下得到最优结果。支持向量机是在统计学习理论的
多年来,企业为了赢得市场竞争,都在不断进行内部改造,而企业运作方式的变化引发了企业需求的变更。对于企业MIS系统这类高度复杂、需求持续变化的应用软件,系统功能和其系统实现
近年来,数据挖掘和万维网应用研究是信息时代两大活跃的研究领域,将数据挖掘技术应用于万维网就称为Web数据挖掘。Web数据挖掘的内容可以分为三个方面:一个是Web内容的挖掘,
空间变形是几何造型和计算机动画中一种重要的几何外形编辑和柔性物体动画生成技术。但是传统的自由变形算法或者控制手段不够灵活,或者时间和空间开销较大,难以进行直观的交互
工作流系统中不同的业务流程之间资源的共享必然会引起一系列安全问题,安全策略在工作流系统中集中表现为存取控制策略。基于工作流系统的安全需求,给出了基于角色的工作流系统存取控制模型(WfRBAC)。WfRBAC的六要素是用户、角色、任务、客体、权限和约束,约束分为动态约束和静态约束,能够满足工作流系统中的静态性和动态性存取控制要求。如何有效的管理大量角色是RBAC模型中面对的一个问题。组织结构图是树型
随着Web服务的日益广泛应用,它的安全性问题显得越来越重要,并已成为制约其发展的关键性因素。如何向开发者提供一个比较合理完备的安全模型,为Web服务搭建综合和健壮的安全
本文的主要研究内容和贡献如下:1.首先,针对传统的计算网格,借鉴经济学原理,提出了一种基于开销的资源管理与调度策略.在计算网格环境中,各种资源例如CPU速率、存储介质的容
脂肪肝是一种可逆性病变,发现及时、治疗适当可以使脂肪肝症状逐渐消失,否则,脂肪肝可能会向肝纤维化和肝硬化转变.脂肪肝的治疗与脂肪肝的轻重程度有着密切联系,因此对脂肪
计算机系统日益深入到人类生活的各个方面,应用环境日益复杂,产生的数据也以几何级数增长,这些都导致可用性成为研究和关注的焦点。传统的容错系统对维持数据和应用的可用性
数据仓库和联机分析处理是这些年迅速发展的一个领域,越来越多的企业都搭建了自己的数据仓库平台,并在此基础上开发自己的应用以支持企业决策.随着企业在地域和业务分布性的