基于深度学习的汉语否定信息识别研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:wuxi_xizi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言中否定是一种广泛存在且复杂的语言现象,其往往会反转文本表述中命题的真值、观点的立场、情感和态度的极性。对否定信息进行识别,将其与事实信息区分处理,将极大提高从文本中所获信息的可靠性及价值。目前否定信息识别已经成为自然语言处理中的一个研究热点。其不仅对信息检索、情感分析、文本挖掘、信息抽取等领域具有重要意义,也对文本的深层语义理解具有促进作用。  对否定信息识别的现有研究大多数是面向英文的并已取得了初步成果,而面向汉语的相关工作还比较少。在相关研究中,通常采用机器学习方法将否定信息识别转化为序列标注问题来处理。这类方法依赖于繁重的特征工程,在汉语否定信息识别中获得的性能也不高。近年来,深度学习技术在自然语言处理领域成功的应用越来越多,在许多序列任务中都获得了不错的性能。因此,本文主要研究基于深度学习的汉语否定信息识别方法,主要内容如下:  首先,对面向英文及汉语的否定信息识别方法进行了全面研究。分析并归类了解决否定信息识别各个子任务的方法,总结了这些方法的优势与不足,提出利用深度学习相关技术来解决汉语的否定信息识别问题的新思路。  然后,在对深度学习中用于解决序列问题的相关技术特点进行分析后,提出了基于双向长短期记忆神经网络的汉语否定触发词检测模型。分别对基于汉字和词的两种句子序列进行标注。同时,利用词嵌入技术来捕捉字或词的语义信息,并将预训练得到的字、词向量作为模型的输入特征。实验表明,该模型的效果比传统基于条件随机场的序列标注方法更好。  最后,针对汉语否定覆盖域界定任务特征空间大、特征设计获取比较复杂的情况,仍使用基于长短期记忆神经网络的方法来界定否定覆盖域。根据任务特点,利用词嵌入技术引入否定触发词相关的额外信息来改进汉语否定覆盖域界定模型。实验结果表明,该模型比起传统的单分类器方法仍是有优势的,融合否定触发词信息的改进方法也提升了模型的性能。  本文尝试了利用深度学习技术来解决汉语的否定信息识别问题,该方法无需大量人工特征,减少了对领域知识的依赖,对任务是有效的且仍有较大的改进空间。
其他文献
无线传感器网络为实现智能电网提出的利用通信网络、传感技术、测量技术等先进技术实现电网智能化提供了技术支持,智能电网也为无线传感器网络运用到工业界以及和其他先进技术进行融合提供了平台。尤其在输电线路监测方面无线传感器网络有成本低、效率高等优势。本课题来源于国家自然基金:基于无线传感网络的输电线路监测与故障分析关键问题的研究。本文首先从传感器网络和输电线路监测的研究现状总结出输电线路监测无线传感器网络
大学外语是我国高校通识教育课程的重要组成部分和人文素质培养的重要内容之一.大学日语是大学外语重要组成部分.近年来,大学日语学生数量显著增长,对我国高等院校在师资配置
学位
目前三维建模在家具、游戏动画、机械制造等领域应用广泛,三维模型的数量有了较大的增长,相应地给管理及生产设计带来了困难。因此,为了解决对现有三维模型的检索和重用需要,三维模型分类技术应运而生。如何在尽可能完美地表达三维模型形状的情况下对三维模型识别是当前的研究热点。传统的三维模型分类方法主要依赖工程师人工设计特征进行分类,时间消耗冗长且分类精度低。鉴于三维数据高维性和复杂性的特点,直接用于表达三维形
错那洞穹隆是藏南特提斯喜马拉雅地区新发现的一个片麻岩穹隆构造.穹隆核部发育一套早古生代眼球状片麻岩.本文在野外地质调查的基础上,利用LA-(MC)-ICP-MS对花岗质片麻岩2个
物联网的应用和研究越来越广泛,包含有EPC电子标签、物联网软件、电子商务、物联网体系结构等方面。物联网的目标就是要形成一个全球范围内的网络,即如何在企业间搭建内部的
广东省文学艺术界联合会、广东省电视艺术家协会联合主办,广东电视台、深圳电视台、广州电视台、南方电视台共同承办的“广东省百佳电视节目主持人”推 Guangdong Federatio
大兴安岭中生代火山岩的成因和构造背景一直存在争议.内蒙古西乌旗地区发育大面积的晚中生代火山岩,是中国东部巨型火山岩带的重要组成部分.本文对西乌旗罕乌拉地区白音高老
智能手机上的移动服务在普适计算环境中应用越来越广泛,然而移动服务的开发需要开发人员做大量服务相关的工作,移动服务的共享困难,手机上的移动服务缺乏一个统一通用的框架
滴水山金矿床为北祁连造山带西段赋存于火山岩中的构造蚀变岩型金矿床.LA-ICP-MS锆石U-Pb测年结果表明,滴水山金矿区安山质晶屑凝灰岩年龄为(479.7±6.9)Ma,形成时代为早奥陶