基于自编码器的通用性文本表征

来源 :第十七届全国计算语言学学术会议暨第六届基于自然标注大数据的自然语言处理国际学术研讨会(CCL 2018) | 被引量 : 0次 | 上传用户:tlihao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了学习文本的语义表征,之前的研究者主要依赖于复杂的循环神经网络(recurrent neural networks,RNNs)和监督式学习方法.本文中,提出了一种门控联合池化自编码器(gated mean-max AAE),用于学习通用性的文本语义表征.本文的自编码器完全通过多头自注意力机制(multi-head self-attention mechanism)来构建编码器和解码器网络.在编码阶段,提出了均值-最大化(mean-max)联合表征策略,即同时运用平均池化(mean pooling)和最大池化(max pooling)操作来捕获输入文本中更多样性的语义信息.为促使联合池化表征可以全面地指导重构过程,解码器采用门控操作进行动态关注.通过在大规模中英文未标注语料上训练模型,获得了高质量的句子编码器.在重构文本段落的实验中,本文模型在实验效果和计算效率上均超越了传统的RNNs模型.将公开训练好的文本编码器,使其可以方便地运用于后续的研究.
其他文献
Modbus通讯因其投资少、通讯距离长、稳定可靠的优点广泛应用于工业控制网络,为工厂信息网提供工业生产数据,能够在新的产业革命中起到重要作用.本文重点对Modbus通讯协议的几个基本概念进行重点介绍,对实现Modbus通讯的硬件传输协议RS485进行简单工作原理分析.简单的列举了工程实践应用中,实现Modbus通讯必须具备的条件.特别对霍尼韦尔PKS300(霍尼韦尔公司的一款集散控制系统产品)系统
煤气化现场四条煤线速度计原为美国热电生产的煤粉速度计,由于使用寿命接近上限,各条煤线速度计相继出现跳变、无测量数据等状况,小幅度的波动会导致煤气化氧煤比控制不稳定,长期下来对煤烧嘴烧嘴头及烧嘴罩产生极大的损伤,而大幅度的波动将直接导致烧嘴跳停,单烧嘴跳停后重新投用需要一段时间,影响工艺调整及合成气产量,进而影响甲醇产量,而多个烧嘴跳停可能会导致气化炉停车,我厂届时正处于多条煤线速度计频繁出现波动,
煤化工行业SCADA系统已经成为国家关键基础设施的重要组成部分,但由于控制系统所使用的设备、协议以及系统构建时未充分考虑信息安全等问题,存在较多的安全隐患,无法抵御来自网络的攻击,急需有效的解决方案.针对这一需求,对控制系统中网络安全防御提出了由“安全运维”提升到“安全运维”的理念,并对其实践进行了探讨,文中所提出的方法不仅可用于对现有系统进行安全运营,也可作为新建系统的安全运营参考.
文本自动撰写在自然语言处理中是一个重要的研究领域,可通过人工智能的方法来提升文本的生成结果.目前主流的生成方法是基于深度学习法,而该文中提出了一种基于注意力的端到端模型生成藏文律诗法.该方法构建在端到端的基础上,并无需任何人为的特征设置工作.基本框架是一个双向LSTM的编码-解码模型,在此基础上逐渐引入了藏文字嵌入、注意力机制和多任务学习法.实验结果表明,该文提出的方法在藏文律诗生成结果中其BLE
集成学习是一种联合多个学习器进行协同决策的机器学习方法,应用在机器翻译任务的推断过程中可以有效整合多个模型预测的概率分布,达到提升翻译系统的准确性的目的.虽然该方法有效性已在机器翻译评测得到了广泛验证,但关于子模型的选择与融合的策略仍鲜有研究.该文主要针对机器翻译任务中的参数平均与模型融合两种集成学习方法进行了大量的实验,分别从模型与数据层面、多样性与模型数量层面对集成学习的策略进行了深入探索.最
手语汉语平行语料库建立的目的是用于机器翻译和语言对比研究,并且能够系统地保存手语资源,保护手语和聋人文化.手语汉语平行语料库存储的内容主要包括手语视频、被采集者信息和标注者信息,以及通过多媒体标注软件ELAN转写的十四层标注信息,包括手控和非手控信息.本文提出使用基于向量空间的余弦相似性算法实现了手语语料相似度的计算来帮助语料库去重,并取得了较明显的效果;同时用此算法进行专家相似度测试以确保语料库
正确划分句子的韵律结构对于提高合成语音的质量具有重要的意义.而特征的选择是韵律结构预测的关键因素之一.在中文信息处理中,文本特征可以分为浅层文本特征与深层文本特征,浅层特征包括词、词性、词长等,深层特征包括句法信息、语义信息等.该文在挖掘剖析句法结构、依存句法结构同韵律结构之间关系的基础上,从文本中获取相关浅层和深层文本特征,并采用条件随机场模型实现韵律短语预测.该文首先以浅层文本特征进行韵律短语
机器阅读理解是NLP领域的一个研究热点,目前大部分是对答案简短的问题进行研究,而具有长答案的问题,如描述类问题是现实世界无法避免的,因此有必要对该类问题进行研究.本文采用QU-NNs模型对阅读理解中描述类问题的解答进行了探索,其框架为嵌入层、编码层、交互层、预测层和答案后处理层.由于该类问题语义概括程度高,所以对问题的理解尤为重要,在模型的嵌入层和交互层中分别融入了问题类型和问题主题、问题焦点这三
反问是一种带有强烈情感色彩的表达方式,对其进行自动识别将提升隐式情感分析的整体效率.针对汉语反问句识别问题,本文分析了反问句的句式特点,将反问句的句式结构融入到卷积神级网络的构建中,提出一种融合句式结构的卷积神经网络的反问句识别方法.首先利用置信度大于70%的反问句的特征词、序列模式,对大规模未被标注的微博语料进行初步筛选,获取大量伪反问句.然后通过多个卷积核分别对句子的词向量和反问句的特征进行抽
藏语语义依存分析是以藏语依存句法分析为基础的深层语义研究.本文从词法分析和句法分析等浅层研究出发,结合藏语自身语法结构和语义单位之间的关系特点,首次实现了藏语的语义依存分析.本文在制定了藏语语义依存关系标注规范并设计了藏语语义依存关系特征模板的前提下,采用了感知机进行了藏语语义依存分析模型的训练,经实验本模型在人工标注测试语料上的根准确率、依存弧准确率、依存弧类型准确率及完全准确率等4个指标分别达