基于标记隐现规则和关联特征的复句层次结构分析研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:tomato20099002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文信息处理作为计算语言学的一个分支,在人工智能、搜索引擎等互联网技术飞速发展的今天显得越来越重要。汉语的使用范围也随着中国在国际上的影响力逐渐扩大,而汉语复句作为汉语语言的重要组成部分,已经成为计算机解决的核心对象,也是目前中文信息处理的研究难点之一。目前,对复句的研究主要包括关系标记的自动标识、分句和非分句的判断、复句层次的自动划分和复句关系的识别。其中,关系标记的自动标识和分句划分已经有了较多的研究,而复句层次的自动划分和关系识别研究较少。鉴于关系标记的自动标识技术已经基本成熟,且关系标记本身具有标明复句层次结构和分句间逻辑语义的作用,因此,在对复句的层次结构进行分析时也要紧紧抓住关系标记这一重要形式标志。然而,由于汉语表达方式的多样性,分句内总会出现关系标记的缺省,即关系标记的隐现,这就导致仅仅依靠关系标记实现复句层次的识别困难重重。为此,本文采取“分而治之”的策略,将研究对象(三句式有标复句)分成充盈态和非充盈态两种类型;同时,为解决标记缺省的问题,构建了标记配位类型表和标记隐现规则,实现对复句内的标记隐现模式的自动提取;另外,在复句的依存句法分析基础上,提出了利用句法成分复现进行分句间关联度的计算。最终通过构建基于标记隐现规则和关联特征的复句层次结构识别模型,达到对复句的层次结构进行自动划分的目的。本文的工作从以下几个方面开展。首先,本文利用依存句法和标点符号对复句内的分句进行划分;其次,在剔除伪分句的基础上,对分句内的关系标记进行标注和提取,以期获得复句的关系标记序列;然后,构建标记配位类型表,并在此基础上提出了标记隐现模式确定算法,获得给定复句的标记隐现模式;同时,在依存句法分析的基础上,提出利用句法成分复现对分句间的关联度进行计算的方法;最后,构建基于标记隐现规则和关联特征进行复句层次结构判断的模型,通过标记隐现规则对充盈态三句式有标复句的层次进行识别和分析,对于非充盈态三句式有标复句则利用关联特征进行层次结构判断。通过实验,标记隐现模式获得的正确率达91.5%,复句层次结构分析的正确率达90.6%。该结果表明,本文提出的方法对复句层次结构的分析是行之有效的。
其他文献
随着网络规模扩大,IPv4作为Internet上使用最广泛的网络协议,其面临着地址空间的枯竭、带宽瓶颈、数据保密、服务质量以及网络安全等问题。为了迎接挑战,建立IPv6网络成为业界共
随着科技进步和社会发展,工业控制自动化领域成了信息物理融合系统(Cyber-physical systems, CPS)一个重要的应用领域。CPS是一种基于3C(Computation, Communication, Contro
随着信息化时代的到来,由不同的企业、单位建立起来的信息化网络数也越来越多,用户电脑数量也是骤增。这些网络在建立之初由于没有很好的考虑到风险管理的因素,或多或少的存
随着网络、通信、信息技术的进一步发展,变电站设备状态监测将向系统化集成化方向发展,形成以状态监测为基础的设备智能管理系统。但各子系统间缺乏有机联系,没有对各种实际对象进行建模和描述,各个厂商按照各自不同的理解进行设计,造成不同系统之间的互操作而临很多复杂问题。而IEC61850作为国际唯一的通信标准,定义了统一信息模型以及统一的标记配置语言,将IEC61850引入到变电设备的状态监测集成平台,用来
开放体系结构(OA)是当前海军作战领域研究的一种先进的技术,它作为一个综合的策略,目标是将允许使用和实现海军领域中覆盖海、陆、空和水下平台的软件构件、测试案例和场景、模
食品分拣系统是一个涵盖机械、光电、图像处理等为一体的自动化分拣系统。在食品加工生产线上,分拣系统能够对物料进行自动分类。这种分拣系统自动化程度高,安全、准确、高效
如今,互联网上的数据量呈指数级增长趋势,各种各样的数据与日俱增。面对如此浩瀚的数据海洋,如何从中快速、准确地获取用户需要的信息越发成为一个亟待解决的问题,这也是如今
随着汽车电子产业在国内的飞速发展,AUTOSAR标准逐渐被各汽车厂商和组织所认可,成为汽车电子领域研发的丰流标准。AUTOSAR提出了独立于硬件的软件架构,并为应用的实施提供方法论
近年来,稀疏模型被广泛应用于信号、图像以及视频处理等领域。在该模型中,信号被表达为一组固定基(也称为字典)的少量原子的线性组合。研究表明,在大多数图像处理应用中,例如图像
资源分配是无线网络中的一个重要的研究课题。在这种网络中,无线资源是受到限制的,每个用户的信道质量也随着时间而变化。考虑到信道质量和总的可利用的资源,系统可能会根据