基于CRF模型的汉语介词短语识别

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:lgdtmz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
介词短语是汉语中一种重要的短语类型。介词短语识别可以缩小句子中心动词的选择范围;可以简化句子结构,降低后续句法分析的难度;在基于模板的翻译中,它还能为模板匹配提供方便。本文首先指出了当前完全语法分析的困难,并介绍了介词短语识别的研究现状及技术路线,提出了汉语介词短语识别的重要性和可行性。在研究过程中,本文继承了Church提出的把BaseNP识别看作词性标注同构问题的思想,尝试在浅层句法分析这个阶段识别介词短语。由于CRF具有表达元素长距离依赖性和交叠性特征的能力,并且介词短语的平均词长比较长,决定采用CRF模型来识别介词短语。首先考虑采用基于CRF单层模型来识别介词短语,在实验分析中发现嵌套介词短语、跨越分句的介词和有歧义的介词短语识别错误导致整个识别精确率不高,后面两类介词短语识别难度较大,不重点研究。本文只针对嵌套介词短语识别错误提出了一种基于CRF的层次结构来识别介词短语。据统计发现,在大量文本出现的都是两层嵌套,三层嵌套在文本中的比例很少,所以只需用基于CRF双层模型来识别介词短语。第一层CRF识别无嵌套介词短语和嵌套介词短语的内层部分,第二层CRF识别嵌套介词短语的外层部分,之后将两层结果合并,最后用规则进行后续处理。实验表明,利用基于CRF双层模型的方法来识别中文介词短语是有效的;系统使用含有7000余个介词短语的2000年人民日报语料的开放测试精确率达到90.08%。和当前同类文献相比,本识别系统取得比较好的识别结果。由于介词短语结构上和动词短语有相似之处,它的研究可以为动词性短语的研究提供某种启示。
其他文献
随着网络的发展,网络上的信息量不断增加,为了让人们能够方便地从海量信息中获得所需信息,搜索引擎技术应运而生并不断发展壮大。人们开始探寻各种各样的排序算法,意图把与用户查
学位
对人类感觉信息的理解和描述是当前人工智能研究中的热点和难点,人类从外界获得的信息中,80%是通过视觉得到的。尽管在计算机视觉领域,目标检测已经研究了几十年,但仍是一个
Internet的发展为电子商贸的快速成长提供了良好的平台。引入多Agent技术可以有效地提高电子商贸的智能化程度。然而,由于多Agent系统的动态性和开放性,系统中某些Agent受利益
随着网络开放化应用和面向服务计算技术的兴起,软件系统的形态、生产方式、运行和使用方式都发生了巨大的变化。未来的软件系统将会运行在由一组软件服务协同工作的环境中。W
随着网络规模的扩大,网络流量特征的相关研究已经成为网络性能分析最主要的方向之一。通过对网络流量特征的研究,可以为预测网络性能、QoS服务和SLA服务等应用提供必要的支持
关联规则是数据挖掘的一个重要研究方向,用于寻找数据库中不同项或属性间的相关性。而在关联规则中最常使用的方法为Apriori算法,但其存在一些缺点,例如,产生大量的候选项集,
以用户主导的Web2.0技术已逐渐替代传统互联网模式成为目前音乐服务的主流技术。然而由于其允许用户自由上传和分享音乐相关数据容易导致出现信息过载的问题,海量的数据给音
Web信息的快速增长,给信息检索系统带来了巨大挑战。传统的检索模型需要在一个相对固定的数据集上通过训练得到,不具备开放的学习功能,而Web上的信息[0]是实时更新的,检索模
随着嵌入式Internet技术的发展,家居的智能化是当前的一种发展趋势,智能化逐步渗透到家庭生活中,如信息家电、水电自动抄表系统、安防系统等。家居远程监控系统是智能家居的