面向自然语言理解的关键技术研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:xinduolian1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言理解是任务型人机对话系统中的基础性研究工作,对于给定用户输入,旨在把自然语言转换成计算机能够理解的结构化语义表示。自然语言理解由意图识别和槽填充组成,其中意图识别完成对用户意图的判断,槽填充完成对用户输入实体的抽取,通常使用多任务学习来同时完成两个任务,相关技术目前成为学术界研究的焦点。本文基于深度神经网络模型,对自然语言理解任务进行了研究,研究内容包含两方面:首先,自然语言理解模型通过使用神经网络对单词语义进行组合来表示句子语义,本文分析了现有语义组合方法存在的两个问题:(1)在句子输入的每个位置使用用相同的语义组合,无法捕获丰富的组合语义而缺乏表达能力;(2)模型能否收敛到一个较好的解取决于人工设定的学习率大小,若太小收敛慢,若太大将不会收敛甚至发散。针对上述问题,提出一种基于元学习的跨任务的语义组合模型,能有效的提升自然语言理解任务的性能,其基本思路是:(1)对语义组合的元知识使用共享的元网络来捕获;(2)对任务模型的参数直接由元网络生成;(3)使用LSTM模型作为元网络,其中元网络的每个时间步的输出更新任务模型的参数。实验结果表明,提出的方法能有效解决现有方法中存在的问题,在两个公开数据集ATIS和Snips上分别取得了95.36%和91.76%的性能效果。其次,本文解决了现有自然语言理解模型对语义理解不充分和没有深入挖掘上下文语义相关性的问题。现有方法存在两个问题:(1)使用共享表示层来实现槽填充和意图识别的多任务学习,没有考虑到在语义层意图和槽标签的语义相关性,使得语义理解不充分存在明显的性能下降;(2)在语义层面忽略上下文之间语义相关性,造成信息的丢失,针对上述问题,本文的解决思路是是:(1)采用门控机制建立两个任务在语义层面的联系,使用门控网络融合意图和语义槽的信息来理解语义;(2)采用自注意力机制,为句子中的每个词语表示融入全文语义信息,避免信息的丢失。实验表明,本文提出的方法能有效解决自然语言理解任务中存在的语义理解和上下文语义相关性的问题,在ATIS和Snips数据集上最高带来4.7%和11.67%的准确度提升。
其他文献
当代民族文学特别是20世纪80年代中期以来的民族文学中普遍表现出民族认同的现象,这牵涉到民族文学的各种文体如小说、诗歌、散文等,其中尤以少数民族小说体现最为显著,从长篇小说《心灵史》《尘埃落定》等到大量的中短篇小说莫不如此。这种民族文学中的民族认同现象不仅数量众多,而且形态多样;不仅有外显的表征,也有内隐的征候;所涉及到的不仅有一流的名家名作,也有一般的作家作品。
期刊
随着视频监控头的海量增长,智能视频监控系统在社会上有着越来越多的迫切需求,尤其是在智能安防、智能交通管理、智能医疗等领域。其中,视频异常检测是智能视频监控系统的核心技术。在有监督的条件下,视频异常检测会消耗大量的人工成本、物资、时间等进行数据的标注;而无监督的异常检测可以很好地克服这些不足,但宥于没有先验知识作为依照,目前开展的研究相对较少。本文着眼于无监督视频异常检测技术和应用,主要开展了以下两
程序自动修复技术为软件调试、软件维护等任务带来了极大的便利,因而引起了研究人员的广泛关注,越来越多的方法被提出以更好地解决修复问题。然而,这些技术在测评环节中存在着多种偏差,使得研究人员不能够全面地客观地分析当前技术的修复能力。本文针对当前的修复工具测评环节中的三类偏差进行研究,内容涵盖程序修复流水线上三个环节(缺陷定位,补丁生成,与补丁验证)中的两个(缺陷定位与补丁验证)以及缺陷数据集的选取,旨
近几年来,深度卷积神经网络(Deep Convolution Neural Network,DCNN)在语义分割任务上取得了显著的进展,极大地提高了语义分割的准确性以及处理效率。在自动驾驶视觉传感器采集的图像中,语义分割方法通过像素级的标注及时精准地获取道路空间方位和障碍物轮廓等信息,已经成为驾驶视觉场景下实现自主规划和主动避障的主流解决方法。对于这类对实时性要求高的应用,如何在保持高效的推理速度
作为现代图像系统的重要部分——多光谱与高光谱图像为探测地物目标提供了丰富的空间信息与光谱信息,在民用与军事领域均有很深的应用价值。与其相关的图像处理技术包括图像搜索、增强、融合、语义分割、异常检测与图像分类等。本文针对多光谱图像融合技术与高光谱图像分类技术进行了深入研究,主要工作包括:(1)本文提出了一个由RLNSST算法与引导滤波器结合的新型融合算法。在深入理解图像融合技术基本理论的基础上,本文
作为一项典型的计算机视觉任务,人群计数的目标是精准高效地统计视频或图片等载体中所含有的总人数。目前,人群计数任务已在公共安全领域的诸多方面得到大力推广和积极应用,越来越多的学者开始将其作为研究课题进行专项讨论。基于采取的方法或者手段,可将人群计数大体划分为两种:一种是基于回归的人群计数,它主要通过创建的回归模型进行人数统计;另一种则是基于检测的人群计数,它依托成熟的目标检测技术对特定场合中包含的人
随着倾斜摄影测量技术、无人机技术和三维重建技术的快速发展,大范围场景下倾斜摄影测量数据的生产速度有了大幅提升。处于信息化时代的人们,也越来越希望能够通过多种多样的科学技术手段了解自己所处的环境,二维影像所提供的信息已经远远不能满足人们的需求,面向三维可视化的需求越来越多。虽然面向三维web可视化的研究有了诸多进展,但是大范围场景下倾斜摄影测量数据的可视化仍存在诸多问题。例如,分层级数据加载过程中,
近年来,随着开源生态的迅速发展,积累了大量的开源软件资源。在这些数目庞大的软件资源中,不乏质量很高的代码片段,以及其衍生品,如代码摘要、文档等。这些高质量的资源具有丰富的价值。然而在海量的开源资源中,如何挖掘出这些高质量的开源资源,使其能够复用于未来的软件工程之中,仍然面临着许多挑战。本文认为面对大数据背景下的开源资源,需要从两个方面进行着手:理解代码与定位代码。因此,本文提出了进行了如下研究:1
模糊测试是一种常用于软件测试中的技术,其中,灰盒模糊测试技术因为具有覆盖率信息反馈以及快速生成用例的特点而应用广泛,但是它需要大量时间去产生测试用例覆盖程序,所以测试效率仍较为低下。现如今计算资源规模庞大,利用分布式计算资源可以加速灰盒模糊测试过程,这个方法区别于传统改进算法,并与其他方法可以相互增益。本文针对大规模分布式并行的持续性模糊测试技术展开了研究。第一,本文采用了以数据库为中心的架构用来
伴随着开源理念的赓续提高,开源社区的发展日新月异,孕育了海量的开源软件,软件资源高度分散而且良莠不齐,难以用传统单一、封闭的方式对开源软件进行评估进而检索优质软件。因此,提出一种新的开源软件排序算法是非常有意义的。本文提出了一种对软件进行综合评估的新方法,从客观和主观两个层面来综合评估软件。客观上采用文本匹配及基于隐式的结合方法,建立开源软件在软件主体社区及软件衍生社区的关联,进而量化软件在软件衍