基于条件随机场的汉语短语识别研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:rwsonny
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着机器翻译技术的不断发展,对完全句法分析质量的要求也越来越高。由于完全句法分析(full parsing)要确定句子所包含的全部句法信息,并确定句子中各成分之间的关系,这是一项十分困难的任务。到目前为之,无论是句法分析器的正确率,还是其运行速度和鲁棒性等各方面,都还难以达到令人满意的程度,这种状况严重地制约了以完全句法分析为基础的自然语言处理相关研究的发展和应用系统的开发。为了降低问题的复杂度,同时获得一定的句法结构信息,短语识别应运而生。本文借鉴了英语chunk的定义、根据汉语自身的语言学特点以及Upenn ChineseTreeBank 5.1标注本身的特点,将汉语短语定义为十种基本短语结构。在该定义的指导下,从Upenn ChineseTreeBank 5.1中抽取语料。论文论述了条件随机场的基本原理,并通过与其他传统的标注模型进行了理论和实验方面的比较,阐述了条件随机场在标注任务中的性能优越性,在此基础上提出了基于条件随机场(CRFs)的汉语短语识别方法,并搭建汉语短语识别实验系统,对测试语料进行短语识别。实验结果表明,相对于Markov和HMMs模型来说,本文提出的短语定义和识别算法具有较高的识别性能;大规模的语料有助于汉语短语识别性能的提高。另外,在Upenn ChineseTreeBank 5.1上,二阶的CRFs识别结果并不比二阶的CRFs好很多,这是由于二阶CRFs在使用更多的上下文特征时,数据稀疏造成的。本文提出的短语识别方法在一定程度上使完全句法分析的任务得到了简化,同时也有利于完全句法分析在大规模真实文本处理系统中迅速得到运用。
其他文献
基于组件的软件开发已经日益成为企业级大型软件开发的主流,该技术以其较大的优势克服了由软件危机所带来的各种弊端。由国家电网公司支持的软件项目——《供电所标准化作业系
肺癌是人类健康的第一大杀手,全世界每年死于肺癌的人数超过一百万。对肺癌的早期诊断和早期治疗,是降低其死亡率的有效途径。随着图像处理、模式识别及科学计算可视化技术的
入侵检测系统作为网络防御中不可缺少的一环,为网络的安全提供着重要的保障。当前的入侵检测系统一般是采用误用检测技术,采用这种技术的缺点是必须实时的更新规则库,并且对未知
网格是近年来得到迅速发展的一种基础设施,具有分布性、动态性、异构性、协作性以及服务质量高要求性等特点,目的是进行资源整合与协同解决问题。随着网格技术的不断发展与成
控制网络是指包含控制设备的网络系统,Internet控制网络即表示包含闭合、反馈控制系统的Internet计算机网络,其中的控制设备构成了网络控制系统(NCS)。在当前的实际应用中,以太
随着计算机技术、网络技术和数据库技术的迅猛发展,特别是Internet的广泛使用以及接入Internet的计算机系统性能的持续增长,一种新的计算模式-P2P计算得到蓬勃发展。对等网络(P
移动通信事业的飞速发展给移动通信网络的管理和运行维护增加了难度,在移动通信网络运维体系中引入代维(即第三方维护)机制是应对网络壮大、维护工作量巨增的有效手段。将地
序规则挖掘问题是数据挖掘中的一个重要问题。数据集中对象之间的顺序与对象属性的顺序之间相关性往往是隐含的,分析挖掘这种潜在相关性进而用规则表示是十分重要的。经过近
随着互联网宽带业务需求迅猛增加和应用的发展,视频直播作为当前互联网的热门应用之一,已经引起了IT行业以及风险投资商的广泛关注。而P2P和CDN(Content Delivery Network,内容分
随着互联网技术的发展,网络黄毒日益泛滥。这不仅严重影响青少年身心健康,而且也给人们日常生活带来诸多不便。如何过滤不良信息是个重要的研究课题。本文以此为背景,依托于