基于最大熵的汉语介词短语自动识别

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:zhouheknight
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
介词短语是汉语中一种重要的短语类型。介词短语识别可以缩小句子中心动词的选择范围:可以简化句子结构,降低后续句法分析的难度;在基于模板的翻译中,它还能为模板匹配提供方便。 本文首先指出了当前完全语法分析的困难,而介词短语识别和其他类型短语识别以及组块分析是一种解决问题的途径。并介绍了介词短语识别的研究现状以及技术路线,提出了汉语介词短语识别的重要性和可行性。随后在继承了语言学家工作的基础上,对汉语介词短语的语义,语法,语用情况进行了讨论,提出了基于汉语介词短语的分类体系,制定面向计算机的介词短语的标注规范。在研究过程中,本文继承了Church提出的把BaseNP识别看作词性标注同构问题的思想,尝试在浅层句法分析这个层级识别介词短语。本文实现介词短语识别的系统是基于最大熵的统计模型,最大熵模型具有简洁、通用和可移植等特点,能够灵活地选取特征,同时可以把计算模型和语言模型作为独立地模块处理,而不必关心语言内部的细节。特征集合的选取是最大熵模型的关键,它选取合适与否决定了介词短语识别结果的好坏。因此在本文中针对汉语介词短语的划分和识别,提出了词、词性标注是构成介词短语识别的主要因素,并根据这几种因素结合介词短语的语用特征来确定最大熵模型的特征空间,从中自动获取介词短语识别的有效特征集合。 实验表明,利用基于最大熵模型的方法来识别中文介词短语是有效的:系统使用含有7000余个介词短语的2000年人民日报语料的开放测试精确率达到89.1%。和当前同类文献相比,本识别系统取得了比较好的识别结果。并且本文所提出的方法具有很强的推广能力,利用本方法还可以对其它类型短语,如基本名词短语,最长名词短语等进行识别。
其他文献
随着计算机技术日新月异的发展,网络技术已成为现代教育技术的主流,而数字语音教学系统的应用使得语言教学的内容、手段乃至观念都发生了根本性的变化。同时,网络、通信、多媒体
基于B/S的多层Web体系结构已经成为网络应用开发的主流,但现有的多层Web应用系统普遍存在着程序可重用程度低、维护工作繁琐、应变能力薄弱等不足。为了提高 Web 应用的开发效
当入射激光光强不大时,激光在非线性传输过程中将不会导致物质的相关特性发生明显的改变;当激光强度达到一定的量级时,激光在非线性传输过程中将会导致物质的相关状态发生改变(例
在国内,飞行程序设计一直以手工设计为主。随着计算机技术的普及,设计人员在设计过程中使用了一些CAD辅助设计的技巧,但是并没有从根本上解决手工设计效率低下,工作繁重和结
图像匹配在近几十年来一直是人们研究的热点和难点,它是在变换空间中寻找一种或多种变换,使来自不同时间、不同传感器或者不同视角的同一场景的两幅或多幅图像在空间上一致,目前
软件测试是保证软件质量的重要手段,也是软件开发过程中的一个重要环节。图形用户界面(GUI:Graphical User Interface) 是计算机技术的重大进展之一。用户可以通过GUI简单而
近年来随着虚拟现实技术在科研领域的发展,其在现实生活中的应用也越来越广泛。如医学领域虚拟手术、制造领域的虚拟装配等。在这些应用中,均需要构造一个虚拟场景,使用真实手去
在临床诊断和病理学研究中,为了准确地分辨医学图像中的正常组织结构和异常病变,需要对医学图像进行分割。由于医学图像对比度较低,加之组织特征的可变性、不同组织之间或者
当今时代是科技日新月异的年代,随着科学技术的迅速发展,网络技术已经在社会经济生活的各个领域中得到了广泛的应用。电子税务时代的到来,为税收管理现代化提供了一个良好的机会
液体杂质检测在液体检测中占有重要的地位,目前多为人工检测或采用高效液相色谱技术来完成。采用人工检测的方法,步骤繁琐,费时费力,而且环境条件的差异,如光线,色彩等,或者操作人员