基于图的汉语句法分析研究

来源 :昆明理工大学 | 被引量 : 1次 | 上传用户:scottwong522
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
依存句法分析是自然语言自动语法分析的一种方法,其主要作用就是分析一个完整句子中各个成分之间的依存关系,这种句法分析方法受到依存语法语言学的启发。该方法在自然语言处理中处于底层研究和实践应用的中间位置,因此,提高依存句法的准确率对自然语言处理有很大促进作用。传统的句法分析主要是通过语言学家归纳各语言的特点,总结出一系列的规则对句子进行分析,这种方法对语言学专家要求较高,而且每种语言要归纳总结各自的语法规则,不能为所有的语言建立统一的标准。近十几年来,随着语料库的完善和机器性能的提高,数据驱动的方法越来越受到人们的关注,其中比较经典的有基于转换和基于图的依存句法分析。从前人研究的结果来看,基于转换的依存句法正确率不是很高,实现方法也比较复杂。本文采用了基于图的依存句法分析作为研究重点。首先从理论层面研究了基于图的依存句法分析过程,重点研究了三个方面:(1)句子依存结构的表示,本文使用了三种方法表示句子的依存结构,它们各有优缺点,从不同层面展示句子的依存结构。(2)解析模型的构建,包括解析模型的初始化和权重训练过程两个部分。(3)句子的解析算法,比较了两种常见的解析算法,鉴于依存句法分析是独立于语言的,为了提高系统的可扩展性,最终选择了可以非投影解析的Chu-Liu-Edmonds算法。设计了一套基于图的依存句法分析系统,以python语言实现了包括属性信息提取及构建模型,权重学习和句子解析三个部分。最后完成了算法和模型的测试,基于测试结果分析,不仅对学习算法进行了改进,并且优化了解析模型的存储结构。本文使用清华大学语义依存网络语料,训练语料库有两万句话,测试集有两千句话。首先使用依存对比较少的属性信息训练出一个解析模型,使用测试集对模型进行测试,并分析实验结果。接着增加属性信息训练解析模型,再用测试集对该模型进行测试,对比实验结果。表明,增加依存对的属性信息可以提高系统的准确率。本文还通过实验为使用不同属性信息训练出来的模型确定其最佳的训练迭代次数,防止系统过拟合。最后,本篇论文还比较了基于统计和基于规则对含有单一动词的汉语句子的解析结果,基于以上研究,验证了所提出改进方法是有效的。
其他文献
运用国际直接投资地域系统综合动因理论,以我国和跨国公司为理论参照对象,从东道国ESP系统和投资主体OIL特征两个方面分析了中国当前双向国际直接投资区位分布的现状、特点以
一、高中数学中的构造法直接列举出满足条件的数学对象或反例,构造结论的肯定和否定或间接构造某种对应关系,使问题根据需要进行转化的方法称之为构造法.简单的说,构造法就是
本文针对当代文化遗产及其保护具有复杂性特征的趋向,结合当前复杂性研究快速发展的时代背景,试图以综合自然科学和科学哲学角度的复杂性的理论框架为指导,运用学科交叉的方
马克思关于人的全面发展学说是我国确立教育目的的理论依据。近年来中小学的素质教育改革一直在实践中不断努力贯彻着这一理论,然而,经过应试教育的在校大学生的"全面发展",
基质物理性质对番茄穴盘育苗质量的影响司亚平何伟明陈殿奎(北京蔬菜研究中心100081)穴盘育苗基质多采用草炭与蛭石混和配制而成的轻基质材料。随着穴盘育苗技术的推广应用,草炭和蛭
综述了关于TiAlN 涂层的高温结构转变、高温氧化行为及机理、高温磨损行为、高温力学性能、高温腐蚀行为等方面的研究进展,为TiAlN 涂层的技术开发提供一定的理论基础。
受石油价格不断攀升的影响,生物基化学品的生产逐渐引起人们的重视。甘油生物转化生产1,3-丙二醇因为原料的可再生性和1,3-丙二醇(1,3-PD)的潜在用途而日益受到关注。本论文
能源危机与环境问题正在影响人们的正常生活,寻找新的能源来代替传统的石化能源显得十分迫切。微藻以其生长快速、易培养、含油量高和不占用耕地等优势被认为是生产环保且可
黄碧云小说语言凝练、沉静,极少长句,氲着冷寂的观感。她冰冷笔触下所着意书写的是让人不能冷静的暴烈的生死爱恨。作家悉心编造了一张网,将整个世界尽数兜入这铺天盖地又硕