面向神经语言模型中softmax层改进方法研究

来源 :西华大学 | 被引量 : 0次 | 上传用户:hetongzhixia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
神经语言模型(Neural Language Model,NLM)作为自然语言处理(Natural Language Processing,NLP)领域里的基础任务,其主要目的是利用词的分布式表示,对自然语言序列建模,以克服统计语言模型中的维数灾难问题。其研究成果被广泛地运用到自然语言处理的其他任务如信息检索、对话系统等。特别是对机器翻译(Machine Translation,MT)、文本生成(Text Generation)而言,神经语言模型就是系统实现的核心组成部件。在神经语言模型中,softmax层作为模型的输出模块,其计算结果是反映模型性能优劣的主要依据。本文从神经语言模型的softmax层入手,探索改进语言模型的方法以及为下游任务特别是机器翻译提供有价值的信息。已有的神经语言模型在构建目标函数时,通常仅考虑使softmax层预测分布尽可能地逼近目标词分布,并将softmax层预测分布与目标词分布的交叉熵作为唯一的损失函数。然而,语言序列有着其固有的差异性:给定一个句子序列,任意选取两个不同位置的词,其为同一个词的概率极低。为了显式地利用这一差异性,本文提出了一个基于上下文差异性的损失函数,并将其作为神经语言模型训练的一个额外约束。实验表明,该方法能有效地降低神经语言模型的困惑度(perplexity,PPL),提高模型性能。在对基于神经网络的机器翻译softmax层预测正确率的研究过程中,本文以训练语料大小为自变量,分别用模型在测试集上的预测正确率和主流的评价指标BLEU对模型翻译质量进行打分,并通过这二者打分的一致性说明了softmax层预测正确率能很好地评估神经机器翻译模型的质量,可以为翻译模型评价任务的研究提供有用的信息。进一步地,本文结合现有模型的翻译结果说明了机器翻译多样性的存在,归纳出导致这一多样性的因素主要包括词的增加和缺失、同义词替换以及句式结构的不同。本文通过统计每个位置目标词的softmax层平均预测概率和预测正确率,从数据层面验证了翻译模型具有显著的多样性。根据softmax层预测正确率在不同位置的变化情况,本文发现翻译模型的softmax的预测正确率并未随着解码端输入译文的长度增加而提高。
其他文献
随着时代的发展,思维导图渐渐在中国日常教学中兴起。思维导图以其独特的优势特点深得师生的喜爱。思维导图不但可以帮助学生整理扩充词汇短语和句式,还可以帮助学生对英语写
会议
随着多媒体大数据以及人工智能的飞速发展,如何从海量数据之中提取用户需要的有用数据已经成为了人工智能发展的迫切需求。其中,图像分割是多媒体数据分析与理解领域中一个基
海绵城市建设是实施生态文明建设的重要措施,也是实现修复城市水生态,改善城市水环境,城市水安全等多重目标的有效手段。目前国内的理论研究和法律实践仍处于探索阶段,多个地
随着通信技术的不断发展,第五代移动通信的时代已经到来。在新的通信时代中,不仅对传统的无线移动通信网络提出的新的要求,例如频谱效率,能量效率等,也对未来的移动网络做出
硫醚类衍生物在许多天然产物中被发现是重要的结构组成单元,特别是在含有生物活性的化合物与药物中,因而有机合成专家们对合成硫醚类化合物产生了巨大的兴趣。在有机合成中,
心血管疾病是一种严重威胁人类健康的疾病。房颤是最常见的心血管疾病之一,可能引起多种并发症,其中最严重的是脑血栓栓塞,俗称中风。因此全面认识房颤的发病机理具有重要的
视觉目标跟踪是计算机视觉领域中一个重要视频研究处理分支,由于科技发展与日常生活的需求,如无人机监控、自动驾驶、人机交互、智慧交通等,近年来得以大展身手。另外,深度学
光学显微镜作为观测微观世界的有效手段,已广泛应用于生物医疗和科学研究。光学显微镜为了清晰成像,需要调整样本至成像系统的准焦面上,这个过程称之为调焦。传统显微镜调焦
随着新课程改革的深入推进,提高学生科学核心素养成为教学的核心目标。物理作为一门重要的学科,对学生物理科学核心素养培养的落实起到不可忽视的作用。而物理概念的学习是物
随着人工智能研究的兴起,人脸识别和疲劳检测技术在实际生活中应用于各行各业,为人们生活的便捷性带来了保障。当前一些重点区域如银行值班室、铁路运营室、消防监控室、重症