基于深度神经网络的文本表示及其应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zzcko22
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,深度神经网络在诸如图像分类、语音识别等任务上被深入探索并取得了突出的效果,表现出了优异的表示学习能力。文本表示一直是自然语言处理领域的核心问题,传统的文本表示的维数灾难、数据稀疏等问题,已经成为大量自然语言处理任务性能提高的瓶颈。近年来,通过深度神经网络对文本学习表示逐渐成为一个新的研究热点。然而,由于人类语言的灵活多变以及语义信息的复杂抽象,深度神经网络模型在文本表示学习上的应用更为困难。本文旨在研究深度神经网络对不同粒度的文本学习表示,并将其应用于相关任务上。首先,对词向量的学习进行了研究。提出了一种基于动名分离的词向量学习模型。该模型将词性引入到词向量的学习过程,同时保持了词序信息。受人类大脑的动名分离结构的启发,在学习词向量的过程中,该模型根据词性标注工具得到的词性,动态的选择模型顶层的网络参数,从而实现模型的动名分离。与相关向量学习方法进行实验对比,结果显示该模型能够以相对较低的时间复杂度,学习得到高质量的词向量;通过其得到的常见词的相似词更为合理;在命名实体识别和组块分析任务上的性能,显著地优于其它对比的词向量。其次,对语句的表示学习进行了研究。提出了基于深度卷积神经网络的语句表示模型。该模型不依赖句法分析树,通过多层交叠的卷积和最大池化操作对语句进行建模。语句匹配对自然语言处理领域的大量任务非常重要。一个好的匹配模型,不仅需要对语句的内部结构进行合理建模,还需要捕捉到语句间不同层次的匹配模式。基于此,本文提出了两种基于深度卷积神经网络的语句匹配架构。架构一,首先通过两个卷积神经网络分别对两个语句进行表示,然后通过多层感知机进行匹配。架构二,则是对两个语句的匹配直接建模,然后通过多层感知机对匹配表示进行打分。两种匹配架构都无需任何先验知识,因此可被广泛应用于不同性质、不同语言的匹配任务上。在三种不同语言、不同性质的语句级匹配任务上的实验结果表明,本文提出的架构一和架构二远高于其他对比模型。相比架构一,架构二更能够有效地捕捉到两个语句间多层次的匹配模式,架构二在三种任务上取得了优异的性能。第三,对统计机器翻译中短语对的选择进行了研究。提出了上下文依赖的卷积神经网络短语匹配模型。该模型对目标短语对进行选择,不仅考虑到了源端短语与目标端短语的语义相似度,同时利用了源端短语的句子上下文信息。为了有效的对模型进行训练,提出使用上下文依赖的双语词向量初始化模型,同时设计了一种“课程式”的学习算法对模型进行从易到难、循序渐进的训练。实验表明,将该模型对双语短语的匹配打分融入到一个较强的统计机器翻译系统中,可以显著提高翻译性能,BLEU值提高了1.0%。自动生成进行了研究。构建了一个较高质量的大规模中文短文本摘要数据集,该数据集包括240多万的摘要,同时构造了一个高质量的测试集。提出使用基于循环神经网络的编码-解码架构从大规模数据集中自动学习生成摘要,构建了两个基于循环神经网络的摘要生成模型。模型一通过使用循环神经网络对原文进行建模,并将其最后一个状态作为原文段落的表示,利用另一个循环神经网络从该表示中解码生成摘要。模型二在模型一的基础上,通过动态的从编码阶段的循环神经网络的所有状态中综合得到上下文表示,然后将当前的上下文表示传递给解码循环神经网络生成摘要。两种模型都是产生式模型,无需任何人工特征。实验表明,两种模型能够对原文进行较为合理的表示,生成具有较高信息量的摘要文本。特别地,模型二生成的摘要文本质量显著优于模型一。综上所述,本文以深度神经网络为手段,以文本表示为研究对象,对自然语言中不同粒度的文本即词、句、段的表示学习及其应用进行了深入研究。本文将所提出的方法应用到了序列标注、语句匹配、机器翻译以及自动文摘生成问题上,并取得了良好的效果。
其他文献
按日计罚在《环保法修正案》经过四次送审之后于2014年4月24日通过的《中华人民共和国环境保护法》中正式予以规定。新环保法把按日计罚的性质确定为行政强制执行是合理的,但
主要对公路施工中沥青路面施工技术进行分析,阐述施工中常见的各项问题,结合问题对施工技术要点进行分析,如沥青混合料的有效摊铺、对沥青路面有效碾压、沥青路面压实技术与
气排球运动是我国首创的一种竞技体育群体类活动,拥有很高的民族性,并在青年中逐渐普及,成为一种全民化运动方式。在高校普及并推广气排球运动对于丰富大学生文娱生活,提升提综合
随着近些年物联网越来越多的普及,物联网设备已经广泛地应用到了交通运输、仓储物流以及智能家居等众多领域,其中物联网以及其相关设备的安全性也影响着每一个行业的未来发展
以人的全面发展理论和多元智力发展理论为基础,基于发展性教学评价方法,结合实际课堂教学的观察和总结,对高中政治高效课堂建设进行研究,分析了影响高中高效课堂建设的因素及
互联网的技术革新已经缺乏动力了。在后互联网时代,跨界和创新就是两大机会。后互联网时代的三大特征是:流量垂直化、个性化,线下红利期到来和AI创造的新场景我认为互联网会
计划生育技术在经历了漫长的探索与发展后,已为大多数人所认同并采纳,成为调节人类生育行为的重要手段。然而,避孕、人工流产、绝育技术的施行却引发了激烈的伦理道德问题论争。
天然植物染料是指从植物原料中获得的、经过较少化学加工的天然染料,其柔和的色泽、典雅的色彩及带有天然植物芬香的特点使其在纺织上得到广泛应用,因此,对天然植物染料的开
目的探讨疏肝解郁活血通腑法对脑卒中后抑郁(PSD)患者的临床疗效及对血清炎症因子的影响。方法选取2016年1月-2017年12月期间我院收治的94例PSD患者,按照随机数字表法分为对
叶片是作物进行光合作用的主要器官,直接影响作物的产量。发掘作物光合作用相关的基因,剖析其作用机制,对增加作物产量具有重要的应用价值。课题组发现了一个玉米黄绿叶的突