基于深度学习的文本匹配算法研究及应用

来源 :江南大学 | 被引量 : 1次 | 上传用户:yangbintian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本匹配任务旨在从两段文本中挖掘内在的语义特征,预测文本间相关性或者矛盾性。作为自然语言处理领域最重要的任务之一,文本匹配一直是领域内众多研究们关注的焦点任务。受益于其部署易、响应快、模型小、通用性强等特点,在智能问答、搜索引擎以及手机小助手等领域占据核心地位。但该领域仍然存在一些问题,阻碍着文本匹配进一步的发展。为了提高模型研究的准确率,研究者们提出对文本表征进行交互,加强文本之间的联系性。但是对于一般性的数据,其效果依旧差强人意。此外,对于长文本匹配中存在噪声信息过多的问题,目前还没有固定的解决方法。针对文本匹配任务,本文围绕领域中现存的问题展开算法研究、实验验证以及实际应用。本文的主要工作和贡献分为以下三点:(1)针对当前文本匹配模型参数量过多,以及模型对一般性数据集的预测能力有限,本文提出了一种基于残差增强模块和简单注意力机制的文本匹配框架,该框架可以同时兼顾模型的准确率以及参数量的大小。框架中设计的增强残差模块,能够极大程度上保留文本的低层传播特征,增强网络对于文本特征信息的抽取。对于文本编码后的特征,框架采用了简单注意力机制来实现文本之间的特征对齐。利用注意力机制的并行处理特性,不仅提高了模型的运算速度,也增强了网络预测的准确性。(2)目前流行的长文本匹配算法大都使用参数量庞大的预训练模型,再进行文本之间相似度的计算。尽管取得优异的准确率,但是训练速度慢并且参数量巨大。为了减少模型的参数量,本文提出解决方案。首先在Bang Liu等人工作的基础上,利用图分治的思想,化整为散,减少图中顶点数量,增加每个顶点包含的关键信息量,从而减少了模型的参数量,提高模型运算速度。接着通过图神经网络聚合关键匹配信息。最后,本文从多角度提取文档的全局特征,将局部和全局特征统一聚合,以提升算法预测的准确性。(3)为了验证本文所提算法在一般数据上的有效性,以及在人们日常生活中的智能问答系统、搜索引擎以及手机小助手等产业中的实用价值。本文设计并实现了一款基于中文维基百科语料库的智能问答系统。该系统实现了中文语料上的问答匹配。系统根据用户输入的问题信息,在语料库中精确匹配答案,并在客户端反馈得分最高的结果。用户在查询过程中能直观感受本文所提算法的可行性。同时,也证明了本文模型在智能问答、搜索引擎以及聊天机器人等产业中的实用价值。
其他文献
相比于多目标优化问题(Multi-Objective Optimization Problems,MOPs),同时考虑目标数大于3的高维多目标优化问题(Many-Objective Optimization Problems,MaOPs)更符合实际应用。随着目标个数不断增多以及目标问题的复杂度增加,目前的多目标优化方法无法很好的解决高维目标空间中性能退化问题,如无法很好的筛除性能差的支配抵抗解(D
学位
脑肿瘤是一种常见的神经系统疾病,可分为原发与继发两大类。其中原发性脑肿瘤起源于颅内组织或脊髓病变,而继发性则是由其他器官的恶性肿瘤转移而来。相较于继发性脑肿瘤,原发性的发病率和死亡率更高,其中最为常见是胶质瘤,它起源于颅内胶质细胞的异常增生。尽管神经胶质瘤研究取得了相当大的进展,但患者的诊断仍然很差。准确的脑肿瘤分割是诊断和治疗的前提,这项任务的主要挑战在于胶质瘤及其子区域在外观、位置和形状上具有
学位
分布式传感器网络在单传感器滤波的基础上,利用传感器间通信交换多目标后验分布,对多目标后验分布进行信息融合达到提高多目标跟踪精度的目的。受限于单传感器检测能力、监控视野非完全一致以及复杂环境下目标漏跟或杂波干扰,传感器间滤波后验分布差异较大,直接采用广义协方差交集(Generalized Covariance Intersection,GCI)融合易丢失目标分布信息,探索有效的多传感融合方法仍值得深
学位
视频多目标跟踪是计算机视觉领域的一个重要分支,如今视频目标检测技术日益提高,现有目标检测器对单张图片中的物体类别以及物体位置有较高的识别率,但依然会有漏检测和错检测的产生。针对这一问题,视频多目标跟踪技术可以利用视频上文信息,对目标的运动信息以及外观信息进行建模,并用各自的标签标记身份来记录目标轨迹信息,可以减少检测器的误检测和漏检测问题。同时视频多目标跟踪技术还需解决如何有效识别新生目标、如何进
学位
方面级情感分析是文本情感分析任务的研究重点,其基础子任务包括:目标词抽取、意见词抽取和方面级情感分类。传统的目标词和意见词抽取工作是独立完成的,割裂了目标词与意见词之间的联系。针对上述问题,最近的研究工作提出了面向目标的意见词抽取任务,其旨在根据句子中特定的目标词抽取与其对应的意见词。当一个句子中存在多个目标词时,准确的捕捉目标词和相应意见词之间的联系仍然非常具有挑战性。本文针对面向目标的意见词抽
学位
频繁-高效用项集挖掘作为数据挖掘的一个重要领域,能够帮助用户在数据集中寻找到频繁出现且有着较高效用值的项集。相比于仅关注项集出现的频次或项集的效用,频繁-高效用项集能够满足用户多元的需求。传统算法在求解频繁-高效用项集挖掘问题时,会遇到搜索空间爆炸和参数设计的困难。近期,有学者将频繁-高效用项集挖掘问题定义为一个多目标优化问题,并提出了基于多目标演化的算法来求解此问题。利用多目标演化的方法挖掘频繁
学位
现代社会城市化进程的加快和人均车辆保有率的增长使城市交通管理面临着巨大的压力。随着计算机、物联网技术的快速发展,智能交通系统在城市交通管理和智慧城市建设中发挥着越来越重要的作用。交通流预测是智能交通系统的基础,精准的交通预测对很多应用来说是必不可少的。当前,交通预测仍然十分具有挑战性,主要体现在两方面:一是由于交通网络中蕴含了复杂的时空关联和非线性变化,导致现有模型的预测精度不够理想,尤其是在长期
学位
随着深度学习技术的迅猛发展,深度神经网络已全面应用到图像质量评价中,并且逐渐占据主导地位。深度神经网络可以自动学习出有用的特征,不再需要繁琐的特征工程,并且在图像质量评价任务上取得了超越其他算法的性能,网络性能的强大得益于精心研究和设计的神经网络结构。设计出高性能的神经网络结构通常需要大量的专业知识与反复试验,成本极高,随着网络结构越来越复杂,神经网络结构的设计,也正在从手工设计转型为机器自动设计
学位
随着智能视频监控的不断发展,行人重识别研究受到了工业界和学术界的广泛关注。行人重识别旨在完成不同相机下相同身份的行人图像关联任务。当前,大部分的研究工作主要关注有监督的场景,即给定的训练数据都拥有身份标签信息。然而,这些方法依赖于大量昂贵的标签数据,并且要求训练和测试数据必须来自相同的相机网络或者相同的数据集。当这些行人重识别模型直接的应用于不同的数据集时,性能将会出现严重的下降。这极大的限制了处
学位
移动边缘计算(Mobile Edge Computing,MEC)作为5G可能的关键性技术基础,通过将服务节点下沉到更接近用户的位置,在网络边缘为用户提供计算、通信与存储服务,从而减少处理任务产生的时延和能耗。考虑到无人机灵活、易部署的特点,可以将它作为移动边缘服务器,为终端设备提供有效的通信覆盖。此外,还可以将它作为供能平台,利用无线充电技术为设备提供任务卸载的能量。然而,环境造成的信号阻塞和阴
学位