【摘 要】
:
语言模型是自然语言处理领域中的基础任务之一,同时也被应用在语音识别、对话系统、机器翻译、句法分析等多个文本处理任务上。随着神经网络的发展,语言模型逐渐从传统的N-gram语言模型,发展到现在主流的基于循环神经网络的语言模型。在循环神经网络(Recurrent Neural Network,RNN)语言模型中,通过共用循环结构体,序列中的历史信息得以被记录在网络中,但也因此出现远距离依赖问题,即远距
论文部分内容阅读
语言模型是自然语言处理领域中的基础任务之一,同时也被应用在语音识别、对话系统、机器翻译、句法分析等多个文本处理任务上。随着神经网络的发展,语言模型逐渐从传统的N-gram语言模型,发展到现在主流的基于循环神经网络的语言模型。在循环神经网络(Recurrent Neural Network,RNN)语言模型中,通过共用循环结构体,序列中的历史信息得以被记录在网络中,但也因此出现远距离依赖问题,即远距离的语义信息在网络中被更新和覆盖,导致网络逐渐忘记了重要的远距离语义信息。语言是由语法与语义共同组成的,目前的RNN语言模型基本可以实现局部语法通顺,但很难保证语义丰富且明确。本文主要针对RNN语言模型语义表达较弱的问题,从主题特征与词特征两个角度进行语义强化,主要工作包括以下几个方面:(1)提出基于主题表征向量的语义强化方法TE-RNN。利用LDA主题模型与预训练的词向量,结合词的位置信息,优化主题表征向量的计算方式,为输入序列中的每个词提供准确的主题语义表示;(2)提出基于主题注意力分配的语义强化方法TA-RNN。不同于TE-RNN直接把主题表征向量拼接到网络输入中,TA-RNN通过构建语句级与段落级的主题注意力,将句子内部局部主题与段落中的全局主题动态分配给序列中的每个单词,为输入序列中的每个词提供准确的主题语义分配;(3)提出基于词权重特征的语义强化方法WD-RNN。由于在实际语料中停用词占比较高(70%左右),网络中充斥着“贫语义”的词信息。WD-RNN利用词的权重特征,构建weighted dropout层,在网络输入阶段抑制权重较低词的信息输入,在输出阶段增强权重较高词的神经元活力,强化了“富语义”词的信息在网络中记忆与传递。
其他文献
随着社会的发展以及时代的进步,在经济快速发展的背景之下,我们国家近几年的经济水平有了很大程度的提升。社会当中的各个企业在实际的发展过程当中都受到了极大程度的推动。
对于商业销售而言,销售体系终端要随着时代的变化不断改进。企业要做到基业长青,应当适应当下,放眼未来,通过商业销售元素促进商业销售终端的手段变化及商业销售终端与消费心
农业部种植业管理司司长曾衍德在农业绿色发展五大行动有关情况新闻发布会上就曾表示,“有机肥替代化肥是形势需要也是发展的必然。现在要推行农业绿色发展,有机肥替代化肥就
上海中心大厦以"龙型"螺旋上升,无疑是上海展现国际都市的又一地标性建筑。上海中心大厦位于上海市浦东新区陆家嘴金融贸易区,设计总高度达到632米,集国际标准的超甲级办公、超
通过弹性光散射法研究了聚苯乙烯-聚异戊二烯-聚苯乙烯(SIS)在正己烷溶液中的自组装行为。结果表明,光散射强度峰值随聚合物浓度的变化呈先增加后降低再增加的趋势,从80℃降温
全球医疗卫生事业高速发展,对我国医疗卫生体系提出挑战,对我国医学教育提出新的标准和要求,需要高度重视医学教育改革,全面提高医学教育水平,培养符合祖国医疗卫生需求和适
迅速发展的蔬菜产业已成为我国农业、农村经济发展的支柱产业。从国际经验来看,世界上多数国家都根据国情对蔬菜产业实行不同程度和不同方式的调控或监管。面对国内外的现实
目前,很多初级中学的体育教学从初一开始就进行着应试教学,体育课内容只是学练中考体育项目,致使很大一部分学生对体育课反感。虽然“浙江省九城区中小学体育教学联盟初中组
目的:观察院内制剂麻荆止咳颗粒治疗风邪犯肺型感染后咳嗽的临床疗效,为中医药在治疗感染后咳嗽方面提供可靠依据。方法:本研究收集符合纳入标准的风邪犯肺型感染后咳嗽患者72例,采用单盲随机对照的方法,分成治疗组和对照组各36例。治疗组予口服麻荆止咳颗粒治疗,对照组予口服复方甲氧那明胶囊治疗,疗程均为2周,观察两组患者咳嗽程度、咳嗽生活质量及痰上清液炎症介质水平在治疗前后的变化,同时观察中医证候积分在治疗
对于复杂的现代电力系统,保持其暂态稳定是一个非常重要的课题。传统的暂态稳定分析方法主要是时域数值仿真法和直接法。基于人工神经网络的暂态稳定评估,是当前暂态稳定分析研