汉语简单名词短语的识别及应用

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:kirawu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
名词短语在句子中常常担任主语、宾语或定语等重要句法成分,其识别是自然语言处理领域的基础任务。汉语简单名词短语作为一种特殊类型的名词短语,兼具结构简单性和语义准确性,可以在完整保留句子结构信息的同时兼顾后续句法分析的需要。本文将汉语简单名词短语的识别作为主要任务,并将其应用于一项具体的深层句法分析任务。本文主要工作有:(1)分析简单名词短语与其他类型名词短语的异同,进一步明确其定义及识别任务。选择中文宾州树库作为原始语料,对其进行解析,得到用于简单名词短语自动识别实验的数据集。(2)利用词、词性和语义资源信息,分别使用三种主流的统计机器学习方法,即最大熵、条件随机场和支持向量机模型对简单名词短语进行识别。在单一模型识别基础上,进一步使用叠加方法构建组合分类器提高识别结果,最终达到了90.91%的F值。(3)在统计方法识别的基础上,针对内含并列结构型简单名词短语的特殊性,利用汉语并列成分的结构平行和语义相似特点构建识别算法。实验证明,使用该算法作为简单名词短语识别的后处理规则,可在提高识别效果的同时分析简单名词短语内部的并列成分,在一定程度上解决了目前多名词并列结构难以识别的问题。(4)分析汉语最长名词短语自动识别精度过低的原因,应用简单名词短语作为底层信息,将最长名词短语的识别过程分解为两阶段。在当前最长名词短语识别效果最好的单一模型上进行实验,底层使用自动识别的简单名词短语时,F值提高了1个百分点;当简单名词短语被完全正确识别时,F值可提高4个百分点以上。
其他文献
现有的医学技术对于一些特殊疾病比如帕金森的诊断还不是十分准确。尝试找到一种新的行之有效的辅助医疗诊断的方法应用于具体医学病例,确保现有诊断的准确性,进而推广这种思
近年来,随着移动设备计算能力增强,无线通信技术,无线定位技术以及微型传感器普及,如何为移动用户提供最适合的个性化的信息服务(已经成为新兴的研究热点。传统的信息服务是
分类是机器学习的重要任务之一,传统的分类方法有一个默认的假设,就是数据集中各类别所包含的样本是均衡的,故传统的分类方法都是以提高数据集的总体准确率为目标的。但是在
随着城市化进程的加快,许多城市开始修建地铁。地铁中需要配置监控系统,用来监控地铁的运行环境。由于监控系统集成越来越多的子系统,其依赖的网络规模逐渐增大,网络管理也逐
在计算机领域中,软件的发展相对滞后于硬件的更新是一个长期存在的问题。而当人们迈入多处理器、多核心时代时,该问题变得更加严峻。特别是在多核的模拟器方面,虽然各大厂家
本研究课题来源于国家自然科学基金资助项目“典型事件过程建模的研究”。事件时序关系的研究目的是建立事件之间在时间上的先后顺序关系,事件时序关系的研究在文本分类、问
随着计算机和网络Internet的迅猛发展,从海量的信息资源中精确地获取信息变得越来越困难。海量信息中有很大一部分是以短文本的形式存在,同时短文本也是人们在日常生活中所必
近年来网页恶意代码由于其隐蔽性和危害性,逐渐成为网络安全热点。传统的恶意代码检测技术主要有特征码检测法、启发式检测法等,这些技术对于检测已出现的病毒非常有效,但是
随着互联网技术的迅速发展,web信息爆炸性地增长,互联网已成为海量信息空间,搜索引擎解决了海量互联网资源的快速定位和检索问题,在网络时代发挥了巨大作用,成为人们在信息时代不
随着计算机技术和光电技术的发展,出现了一种新的检测技术--基于计算机视觉的测量技术,该技术是一种利用CCD摄像机作为图像传感器,综合运用图像处理技术进行非接触测量的方法,具