基于多层CRFs的汉语介词短语识别研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:bindao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
介词短语是汉语中一种重要的短语类型,在汉语中占有较大的比例。介词短语的正确识别可以简化句子结构;缩小中心动词的选择范围;降低句法分析的难度。基于介词短语识别的重要性,本文提出了基于条件随机场(Conditional Random Fields, CRFs)的汉语介词短语识别方法,并采用基于转换的错误驱动学习方法对结果进行校正,较好地完成了介词短语识别任务。本文将介词短语识别问题转化为序列标注问题,基于CRFs模型在序列标注上的优点,选用CRFs模型作为标注模型,通过分析介词短语的结构特征,为CRFs模型选取了6个有效的特征,并采用递增式的学习方法选择特征模板,优化了模型的性能;针对句子中含有多个介词短语识别效果不理想的现状,提出了多层识别的方法,分层识别每一个介词短语,将识别出的介词短语用特殊的符号替换,进而简化句子结构,缩短句子的长度;本文为了进一步提高介词短语识别的效果,采用基于转换的错误驱动学习方法对基于CRFs模型的识别结果进行校正。论文对基于单层CRFs模型、基于多层CRFs模型及加入错误驱动学习方法分别进行实验。实验证明,本文采用的多层CRFs模型的介词短语识别方法是有效的。通过对人民日报2000年语料中的7000多个介词短语进行五倍交叉实验,精确率、召回率、F1值分别为91.45%、91.39%和91.42%。在引入基于转换的错误驱动的学习方法对识别结果进行校正后,精确率、召回率、F1值分别达到91.98%、91.92%和91.96%,进一步提高了识别的效果。本文对介词短语识别的研究取得了较好的成果,可以将该成果应用到句法分析、机器翻译等领域。
其他文献
随着“互联网+”的不断发展,气象信息服务的传播方式更加便捷,服务形式也更加多元,对气象服务在我国航天领域的应用推动巨大,因此,气象部门须跟随现阶段“互联网+”的发展方向,变革
机器学习方法研究计算机系统如何通过自动化学习的过程来提升系统性能的算法。对于很多机器学习问题,例如高光谱遥感图像分类、搜索引擎的排序学习、语音识别等,学习模型的泛化
数字信号处理器(Digital Signal Processing,简称DSP)在信号处理、数字通信领域具有很强的应用。现代高性能数字信号处理器大多数采用超长指令字(Very Long Instruction Word,VLIW
在科技化和信息化飞速发展的今天,计算机系统已经开始由单机系统向分布式系统方向转变。如何在分布式环境下通过互连网络整合不同资源以提供更高的计算和服务能力已经成为目
互联网发展初期,人们利用互联网主要是为了解决科研等工作中的沟通问题。但随着互联网的发展,以多媒体业务、P2P、VoIP、高速上网为代表的新业务不断涌现,尤其是P2P,经常是导致网
无线自组织网络(Wireless Ad hoc Network)是由多个无线终端所组成的多跳无线网络。由于它的临时自组织以及无基础设施的特性,使得传统有中心网络的MAC(Medium Access Control
随着3G无线通讯技术的发展,智能移动设备将成为未来动态信息接收的良好终端,将随时随地的获取信息,接入互联网,成为移动互联网。尤其,Android智能平台的异军突起和不断普及,
序列图像中运动目标跟踪技术研究是指对视频中的运动目标进行检测、识别和跟踪,该技术在视频监控、机器人技术、图像检索、图像压缩等研究领域有着重要应用。其中,运动目标检测
在高速发展的市场经济时代,供应链管理是企业提高竞争力非常重要的环节之一。现阶段,产品的供应链管理已经足够成熟,但是服务备件作为售后市场的主体,它在企业供应链中占据着越来越重要的地位,尤其是现阶段产品利润并不高,产品售后服务已成为制造商增加效益的关键。网络优化是供应链管理中重要的一部分,通过对库存、物流、建设费用等因素的综合考虑,合理地分配服务备件供应链网络,能够使整个服务备件供应链网络的经营总成本
三维可视化是科学计算可视化的一部分,它的目标是将科学计算、工程学、医学等领域的数据以三维图像的形式呈现给用户,相比二维图像,它能够提供更加直观、准确和丰富的信息。三维