基于递归神经网络的组块分析技术及应用研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:cdelphi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
组块分析是属于句法分析的研究范畴,也叫做浅层句法分析,是自然语言处理中的关键的一环。组块分析采用“分而治之”的策略,对句子的组块进行识别。本文的目的是对汉语句子进行组块的识别,为其他自然语言处理任务提供基础服务。  完全句法分析是自然语言处理的一个难点,它要确定的是句子中所包含的全部的句法信息,并得到句子中各个成分之间的依附关系,最终得到句子的完全句法分析树。完全句法分析是一项非常困难的任务,目前的研究结果并不能令人十分满意。为了将句法分析在自然语言中进行有效的应用,组块分析技术于上世纪九十年代被提出。不同于在之前的完全句法分析,组块分析只识别出句子中的某些相对简单的独立成分。组块分析的出现降低了句法分析的复杂度,有利于句法分析在一些文本处理的任务中得到了快速的应用。  组块分析一般有基于规则和基于统计两种方法。基于规则的方法要求手写规则,而传统的基于统计的方法需要大量的特征工程来做基础,这两种方式对人工的依赖明显。为了减少这种依赖,本文将研究重点转移向了深度学习中的递归神经网络方法。  深度学习是近年来新兴起的机器学习方法,它能够对特征进行自动学习,从而形成更加抽象的高层特征,减少了对特征工程的依赖,这是与传统方法最大的区别之一。其中,递归神经网络可以携带“过去”的信息,其双向结构还可以捕获到“未来”信息,不论“过去”信息还是“未来”信息都对组块识别有所帮助。因此,本文的研究重点是如何将递归神经网络适当的应用到组块识别问题中。本文的主要贡献如下:  (1)针对组块分析任务的输入特征,本文研究了融合词性信息的词向量的获取方法,并在word2vec和CWE模型的基础上,提出了结合词性信息的词向量模型:pw2vec和PCWE。  (2)将RNN、BRNN、LSTM和BLSTM分别用于组块分析任务,其中BRNN模型取得了最高的91.73%的F1值,超过了baseline;更进一步,我们通过分析递归神经网络存在的不能解决标记偏置和标签依存的问题,将递归神经网络和条件随机场进行模型组合来弥补这个缺陷,实验结果显示组合模型的F1值得到了全面的提升,其中BRNN-CRF模型的F1值最高,为92.2%。
其他文献
线型光纤感温火灾探测报警系统是近年来发展起来的新型火灾探测报警系统.在系统中光纤既作为信息传感的功能元件,又作为传送信息的传输通道.该系统综合了时光域反射技术,激光
随着电子计算机的出现与飞速发展,函数建模越来越受到人们的重视,函数建模在现实世界中具有重要意义。所谓函数建模,就是将实际应用题的变量关系用函数关系表示出来,再利用函
权限问题对于系统的安全性来说是重中之重,如果能够绕过用户的允许以及系统的保护而直接获得管理员权限,那就相当于破解了系统的限制,取得了系统的控制权。所以对于一个系统的安
随着流媒体信息处理技术的迅猛发展,流媒体视频业务正在呈现普适化的趋势,用户对在线视频的应用需求也不断增加。由于传统视频传输系统需要巨大的存储空间和带宽资源,长期以来视
近年来,随着网络技术的不断发展,网络覆盖程度大大的增加,人们对网络接入的需求也越来越多。网关作为网络接入的核心设备,在其中扮演了重要的角色,网关工作正常与否直接影响
随着世界各国不断加大对太空资源的争夺,我国制定的航天事业“三步走”战略也在积极推进,航天测控计算机系统作为航天地面系统的重要部分,在航天测控领域发挥着重要的作用,其系统
物联网技术在全球范围内的快速发展引起了极大的关注。受限应用协议CoAP是由IETF借鉴互联网中的REST架构思想,结合物联网的特点而提出来的网络传输协议。自从CoRE[作组提出Co
本课题是从上海产权交易所网络报价系统的开发过程中引申而来的。网络报价系统需要传输的数据量大,传输的实时性要求高,安全性要求强。综合这些特点,传统的通信协议很难满足
内存对象缓存系统在通信方面受制于传统以太网的低效率,在存储方面受限于服务器节点的内存容量,亟需融合新一代高性能IO技术提升性能。本文对以Memcached为代表的内存对象缓存