基于SVM的中文组块间依存关系分析

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:zzdlily_5000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句法分析是机器翻译的核心部分,而依存关系分析又是一种重要的句法分析方法,依存关系分析所成生的依存关系树即可以表示词与词之间的深层联系又可以节省存储空间。本文研究了使用支持向量机(SVM)进行中文依存关系识别的方法。 因为组块分析可以判断出确定性高的部分结果,减少句法分析中的歧义,所以本文在组块基础上进行依存关系分析,为了使句子中的每个词都属于且仅属于一个组块,所以扩展了自然语言处理实验室原有的六种组块类型,使组块类型扩展到十二种。 在依据依存公理的基础上,制定了一套中文组块间依存关系体系,共定义了二十四种组块间的依存关系类型,为依存关系语料库的制作提供了标准。 本文分别使用了确定性分析算法和非确定性分析算法配合SVM分类器进行中文组块的依存关系识别,因为Nivre算法已经成功的应用于英文的依存关系分析,又因为英文和中文在句法特点上具有一定的相似性,所以本文采用Nivre算法作为中文组块依存分析的确定性算法。根据中文组块的特点本文设计了非确定性算法,其基本思想为,对句子中任意的两个组块,使用SVM分类器判断它们之间的依存关系,并得到他们之间的依存系数,即两组块之间的依存关系的强弱,然后为每个组块选取依存系数最大的节点作为支配节点,最后消除交叉依存和循环依存,输入一颗完整的依存关系树。 由实验得出,使用确定性算法的正确率为75.664%,使用非确定性算法的正确率为82.574%,可以看出对于中文组块依存关系分析来说,非确定性算法的性能要好于确定性算法,本文最后还分析了导致错误分析的部分原因和主要的错误类型。
其他文献
科学研究中人们希望发现数据中蕴含的规律。因此,找到一种高效、准确的函数关系发现方法也是数据挖掘方面的一个研究重点。  本文对利用基因表达式编程(GEP)技术进行函数关
无线通信技术和计算机网络技术的发展为无线Ad hoc网络的发展奠定了基础。由于具有不需要集中式网络管理和基础设施的显著特点,无线Ad hoc网络在近年来受到越来越多的关注。
随着高性能计算应用需求的迅猛发展,解决一些超大规模应用问题所需要的计算能力,已不可能在单一的计算机上获得.因此将地理上分布、系统异构的多种计算资源通过高速网络连接
随着互联网的迅速普及和应用的不断发展,各种黑客工具和网络攻击手段也随之倍出,网络攻击导致网络和用户受到侵害,其中分布式拒绝服务DDoS以其攻击范围广、隐蔽性强、简单有
本论文是结合东软的健康保险核心业务系统的具体项目完成的。在系统的开发实践过程中,本文作者同时参与了该系统体系架构的设计和系统模块的实现。在设计系统体系构架时,提出了
目前,我国电信网络正处于高速发展中,网络的规模越来越大,设备种类越来越多,组网方式越来越多样化,应用越来越复杂,但是网络管理系统仍然普遍采用管理员/代理的集中式管理方
随着面向对象编程OOP(Object Oriented Programming)技术的快速发展,OOP已成为当前主流编程技术之一,并被广泛应用于设计和开发面向对象软件OOS(Object Oriented Software,)
随着移动云计算的兴起,以智能手机为代表的移动设备已经成为人们日常生活一部分。越来越多的用户将自己的隐私数据存储在移动设备上,移动平台的数据安全问题越来越重要,特别
随着网络技术的发展,以太网和TCP/IP在工业控制领域得到了越来越广泛的应用,但是,许多工业控制设备的数据传输使用的是符合RS-232标准的串行接口。为了使具有串行接口的设备能上
随着计算机、通信和网络技术的高速发展,全球信息化的步伐越来越快,网络信息系统成为人类社会持续发展的基础设施。人类在感受到了网络信息系统对社会发展做出巨大贡献的同时