基于最大熵的汉语介词短语自动识别

来源 :大连理工大学 | 被引量 : 0次 | 上传用户：zhouheknight

【摘要】

：

介词短语是汉语中一种重要的短语类型。介词短语识别可以缩小句子中心动词的选择范围：可以简化句子结构，降低后续句法分析的难度；在基于模板的翻译中，它还能为模板匹配提供方便。

【作者】

：

于浚涛

【机构】

：

大连理工大学

【出处】

：

大连理工大学

【发表日期】

：

2006年期

【关键词】

：

自然语言处理浅层句法分析介词短语识别最大熵

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

介词短语是汉语中一种重要的短语类型。介词短语识别可以缩小句子中心动词的选择范围：可以简化句子结构，降低后续句法分析的难度；在基于模板的翻译中，它还能为模板匹配提供方便。本文首先指出了当前完全语法分析的困难，而介词短语识别和其他类型短语识别以及组块分析是一种解决问题的途径。并介绍了介词短语识别的研究现状以及技术路线，提出了汉语介词短语识别的重要性和可行性。随后在继承了语言学家工作的基础上，对汉语介词短语的语义，语法，语用情况进行了讨论，提出了基于汉语介词短语的分类体系，制定面向计算机的介词短语的标注规范。在研究过程中，本文继承了Church提出的把BaseNP识别看作词性标注同构问题的思想，尝试在浅层句法分析这个层级识别介词短语。本文实现介词短语识别的系统是基于最大熵的统计模型，最大熵模型具有简洁、通用和可移植等特点，能够灵活地选取特征，同时可以把计算模型和语言模型作为独立地模块处理，而不必关心语言内部的细节。特征集合的选取是最大熵模型的关键，它选取合适与否决定了介词短语识别结果的好坏。因此在本文中针对汉语介词短语的划分和识别，提出了词、词性标注是构成介词短语识别的主要因素，并根据这几种因素结合介词短语的语用特征来确定最大熵模型的特征空间，从中自动获取介词短语识别的有效特征集合。实验表明，利用基于最大熵模型的方法来识别中文介词短语是有效的：系统使用含有7000余个介词短语的2000年人民日报语料的开放测试精确率达到89.1％。和当前同类文献相比，本识别系统取得了比较好的识别结果。并且本文所提出的方法具有很强的推广能力，利用本方法还可以对其它类型短语，如基本名词短语，最长名词短语等进行识别。

其他文献

基于嵌入式的数字语音教学系统研究与设计

随着计算机技术日新月异的发展，网络技术已成为现代教育技术的主流，而数字语音教学系统的应用使得语言教学的内容、手段乃至观念都发生了根本性的变化。同时，网络、通信、多媒体

学位

嵌入式系统μC/OS-IIS3C44B0IIS

利用Struts与Hibernate框架构建Java Web应用的研究与实现

基于B/S的多层Web体系结构已经成为网络应用开发的主流，但现有的多层Web应用系统普遍存在着程序可重用程度低、维护工作繁琐、应变能力薄弱等不足。为了提高 Web 应用的开发效

学位

MVCStrutsHibernate框架设计模式数据持久化层模型

强非线性作用下超短脉冲激光的检测与控制机理研究

当入射激光光强不大时，激光在非线性传输过程中将不会导致物质的相关特性发生明显的改变；当激光强度达到一定的量级时，激光在非线性传输过程中将会导致物质的相关状态发生改变（例

学位

强非线性作用超短脉冲激光控制机理环形光束

基于GIS的飞行程序设计

在国内,飞行程序设计一直以手工设计为主。随着计算机技术的普及,设计人员在设计过程中使用了一些CAD辅助设计的技巧,但是并没有从根本上解决手工设计效率低下,工作繁重和结

学位

飞行程序设计MapObjectsCAD

快速特征点匹配技术的研究和实现

图像匹配在近几十年来一直是人们研究的热点和难点，它是在变换空间中寻找一种或多种变换，使来自不同时间、不同传感器或者不同视角的同一场景的两幅或多幅图像在空间上一致，目前

学位

归并算法分层投影匹配极线约束角点提取图像匹配

图形用户界面GUI的自动测试工具的研究

软件测试是保证软件质量的重要手段,也是软件开发过程中的一个重要环节。图形用户界面(GUI:Graphical User Interface) 是计算机技术的重大进展之一。用户可以通过GUI简单而

学位

图形用户界面自动测试工具记录/重放词法分析语法分析

个性化人手渲染技术研究

近年来随着虚拟现实技术在科研领域的发展，其在现实生活中的应用也越来越广泛。如医学领域虚拟手术、制造领域的虚拟装配等。在这些应用中，均需要构造一个虚拟场景，使用真实手去

学位

虚拟手模型向量补偿顶点混合蒙皮个性化纹理渲染

基于MAS的医学图像分割关键技术研究

在临床诊断和病理学研究中,为了准确地分辨医学图像中的正常组织结构和异常病变,需要对医学图像进行分割。由于医学图像对比度较低,加之组织特征的可变性、不同组织之间或者

学位

医学图像分割MAS群体强化学习Agent图集对分析

信息安全技术在电子税务申报系统中的应用

当今时代是科技日新月异的年代，随着科学技术的迅速发展，网络技术已经在社会经济生活的各个领域中得到了广泛的应用。电子税务时代的到来，为税收管理现代化提供了一个良好的机会

学位

电子税务信息安全数字签名身份认证加密电子政务

基于图像处理的液体杂质检测技术

液体杂质检测在液体检测中占有重要的地位，目前多为人工检测或采用高效液相色谱技术来完成。采用人工检测的方法，步骤繁琐，费时费力，而且环境条件的差异，如光线，色彩等，或者操作人员

学位

图像处理液体图像杂质检测

基于最大熵的汉语介词短语自动识别

与本文相关的学术论文