中文长文本匹配算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：rylqy

【摘要】

：

判断两篇文章之间的关系是一项很重要的自然语言理解任务,在新闻系统和搜索引擎等实际服务中有着广泛的应用。然而,相比在信息检索场景中去匹配两个句子或者匹配一个查询-文

【作者】

：

郭佳乐

【出处】

：

哈尔滨工业大学

【发表日期】

：

2004年期

【关键词】

：

自然语言处理文本匹配图卷积神经网络图注意力神经网络图池化

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

判断两篇文章之间的关系是一项很重要的自然语言理解任务,在新闻系统和搜索引擎等实际服务中有着广泛的应用。然而,相比在信息检索场景中去匹配两个句子或者匹配一个查询-文档对而言,长文章通常具有丰富的语义信息和复杂的逻辑结构,这也使得长文章之间的匹配成为一个相对独立且很有挑战的任务。本课题希望围绕长文章匹配的难点,设计面向中文长文本匹配任务的算法模型,并提出了基于图分类框架的长文本匹配算法,通过将长文本匹配任务等价的转化为图分类任务,使用图表示学习的范式来求解,从而获得长文本匹配的结果。本论文包括基于图表示学习来实现对长文本对的建模,图节点特征提取,以及图分类等步骤,最后在两个大型公开数据集上进行模型的训练和测试。本文提出的方法,创新点及贡献可以总结为以下几点:(1)基于图分类的长文本匹配算法。该算法将输入的文本对转化为图结构,包括设计节点的选取策略和节点向量化的编码算法,以及完成邻接矩阵的构建和存储;设计基于图卷积神经网络的节点特征抽取算法;针对朴素的图卷积神经网络在聚合邻居信息时无法区分不同邻居信息的重要性程度从而有选择的进行信息聚合,设计基于注意力机制的图神经网络的节点特征抽取算法;设计基于多层感知机的图分类模块对融合了全图信息的特征表示向量进行图分类计算,从而得到长文本匹配的结果,完成长文本匹配任务。(2)基于图池化增强的长文本匹配算法。该算法针对图节点融合过程中如何最大化图的可辨别性,设计了基于自注意力机制的图池化算法和基于图注意力机制的图池化算法来对图节点融合过程进行约束。其中为了进一步建模图节点融合过程中图节点之间的局部特征依赖关系,设计了基于排序的卷积神经网络模块和基于排序的循环神经网络模块。通过图池化算法的引入,有效的提升了图的表示效果,从而获得了更鲁棒且优异的长文本匹配结果。(3)基于底层特征增强的长文本匹配算法。该算法针对如何提升网络模型输入特征的质量,设计了多尺度卷积神经网络模块来获得更丰富且鲁棒的节点语义表示。同时在模型中引入更多的非线性,增强了模型的拟合能力;为了在输入侧显式地建模节点邻居特征与节点的交互,设计了基于邻居采样的节点特征增强算法来对输入特征进行增强,在输入端对节点特征拼接采样的邻居特征来增强节点的表示;为了在输入测直接建模图的全局特征来辅助最后的图分类任务,设计了图全局特征提取模块来有效地提取初始输入图的全局特征。此外,通过本文提出的各模块之间有效地配合得到的中文长文本匹配算法,在两个公开数据集上进行了充分的实验,各项指标均达到了目前最好的结果。最后,我们讨论了未来长文本匹配任务有待研究的角度和方向。

其他文献

面向神经语言模型中softmax层改进方法研究

神经语言模型(Neural Language Model,NLM)作为自然语言处理(Natural Language Processing,NLP)领域里的基础任务,其主要目的是利用词的分布式表示,对自然语言序列建模,以克

学位

神经语言模型softmax文本差异性机器翻译评价机器翻译多样性

无线电频谱数据的模式提取及其应用研究

随着无线电技术的不断发展,无线电业务不断拓宽,为人们的生产和生活提供了许多便利。与此同时,不断增加的无线电业务及日趋复杂的电磁环境为无线电频谱监测与管理带来了挑战,

学位

频谱监测改进的k-means聚类算法模式提取频谱数据压缩

基于DALiuGE计算框架的w项改正算法并行优化

平方公里阵(Square Kilometre Array,SKA)将成为国际上最大的综合孔径射电望远镜,SKA作为下一代的射电望远镜,以大视场、多波束、高动态、高分辨和大数据为核心概念,将颠覆射

学位

SKADALiuGEFaceting并行计算GPU

直接书面反馈和间接书面反馈对英语作为外语的学习者写作语法准确性的影响

英语写作,经常被中国学生认为是难度最大的一项语言技能,大部分的学生对英语写作有畏难情绪。但是,写作作为输出性技能,在英语交际过程还有高考中都是重要的组成部分。所以,

学位

教师书面修正性反馈直接反馈间接反馈语法准确性

小学高年级英语课堂小组互动中同伴支架的研究

新课改的落实为小学英语课堂教学提供了新的教育理念和教育模式。以教师“教”为主的传统的英语课堂模式已经不能满足新时代对学生发展提出的要求,教育学家和教师一直在探索

学位

小学高年级英语课堂小组互动同伴支架

外国海事判决承认和执行规则统一研究

作为国际民商事判决的重要组成部分,外国海事判决的承认和执行在实践中占有重要一席。外国海事判决的承认和执行因缺乏统一规则的调整面临诸多障碍,直接导致海事诉讼当事人的

学位

外国海事判决承认和执行布鲁塞尔体系海牙判决公约

基于BP网的不确定图K近邻查询研究与实现

复杂的网络中,如生物网络、社交网络,经常存在着数据的不确定性。这些不确定性存在的原因有很多,如原始数据不准确、获取技术方式不精确、使用粗粒度的数据集合、满足特殊应

学位

不确定图BP网K近邻可能世界抽样算法

药品侵权民事赔偿责任研究

药品侵权是一种伴随着生命科学和药品研发而产生的新型侵权形式。在以往的药品侵权民事案件中,由于缺少专门立法,法官通常需要借助包括《侵权责任法》、《产品质量法》、《消

学位

药品侵权责任主体归责原则因果关系民事赔偿

NVST分布观测控制系统框架研究

目前世界上最大口径的真空太阳望远镜-澄江一米红外望远镜(New Vacuum Solar Telescope,NVST)现已投入观测。它的基础建设良好,观测成果也备受期待。但望远镜本身所相关的观

学位

观测控制系统澄江一米红外望远镜消息通信分布式系统框架

面向工业物联的Multi-RAT关键技术研究

随着工业设备逐渐向智能化、网络化的方向发展,制造企业对于工业物联网的需求越来越大。与此同时,广泛部署的各种智能节点,以及各种多媒体传感器的使用,对于工业物联网的覆盖

学位

Multi-RAT工业物联UDP隧道链路聚合软件定义网络

中文长文本匹配算法研究

与本文相关的学术论文