基于语义表示与知识融合的复述识别方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:linzh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
复述识别任务,旨在判断两个自然文本是否表达相同的语义,是自然语言处理中的一项基础任务,解决该任务的关键是正确理解句子的语义以及判断出两个句子之间的关系。目前,复述识别方法主要基于深度神经网络模型,该类方法将复述识别任务视为一个二元分类任务,并取得了很大进展。但现有方法在问句复述识别任务中以及在特定领域的复述识别任务中还存在不足之处,如存在信息缺失导致的语义理解与交互不充分问题。因此,本文针对以上科学问题进行研究,并搭建了基于知识库的智能问答系统原型。本文研究内容主要分为以下三个部分:(1)基于正交化语义表示的问句复述识别方法在问句复述识别任务中,问句中的问题词取代了原有句子的部分信息,因此需要更充分的语义理解与交互。现有工作通常基于问句的语义级编码,通过融合或交互的方式,抽取问句的浅层语义特征,以此支持复述问句之间的语义计算,但这种编码方式较为单一,无法充分理解句子的语义与关系。若能找到两个问句的相同点和不同点,就可以基于这些信息得到更为准确的判断结果。基于此想法,本文提出了语义正交化匹配方法,通过该方法将每个问句拆分为与另一个问句的相似表示和差异表示,这不仅丰富了问句的语义表示,而且实现了问句的多粒度特征语义融合。本文在中文数据集LCQMC和英文数据集Quora上进行实验,证明了语义正交化匹配方法在问句复述识别任务中的有效性。(2)基于领域知识融合的复述识别方法在通用领域的复述识别任务中,一般只需要理解句子语义,再依据两句话的语义相似度就可以直接判断出两个句子是否互为复述关系。而在特定领域中,由于领域知识缺乏,专业术语难理解,复述识别必须要具备特定领域的专业知识,才能更准确地理解两个句子的语义,并进一步判断出它们的区别与联系。因此,针对特定领域,本文提出了一种基于领域知识融合的复述识别方法,首先为句子补充专业知识,再将专业知识融入到每个句子的语义中,最后实现更准确的语义相似度判断。本文以计算机科学领域为例,在英文数据集PARADE上进行实验,提出了两种领域知识扩充方法,并证明了领域知识融合方法在特定领域复述识别任务中的有效性。(3)基于复述识别的问答系统原型实现结合前文的复述识别方法研究,本文构建了冬奥会相关的知识库语料,并搭建了基于知识库的冬奥会智能问答系统原型。该系统原型基于REACT实现前端界面,Jersy实现数据传输。算法实现时,首先使用基于BM25算法的ES检索架构进行初步检索,再结合本文的复述识别算法进行判断,实现用户问题与知识库问题的匹配,最终返回用户所需的答案。
其他文献
疫情大环境下,健康管理的重要性日渐突出,体检是个人健康管理的重要组成部分,体检中的筛查项目能够在早期发现疾病,及时治疗和防预可以增加治愈的可能性。当前医疗机构提供的体检报告仍十分原始,纸质版和电子版均存在可读性不佳的问题,受检者阅读体验受限,无法全面读懂健康状况,对个人健康管理的执行造成阻碍。可视化是将人眼不敏感的数字、文字等信息图形化以提升视觉体验,是解决可读性不佳问题的有效手段。本课题从可视化
学位
随着目前空战武器装备的迅猛发展,对于高空高速大机动目标的轨迹预测越来越占据重要的战略地位。为了解决目前存在的目标轨迹预测不足的问题,本文提出了融合小波分解(wavelet decomposition, WD)和长短期记忆(long short term memory, LSTM)网络的模型来对机动目标的轨迹进行预测。首先,通过小波分解将输入的轨迹时间序列分解为1个低频分量(CD1)和3个高频分量(
期刊
随着智能设备的普及和无线通信技术的发展,空间众包(Spatial Crowdsourcing,简称SC)引起了越来越多的关注。在现实场景中,对于复杂的任务,单个工人无法单独高质量地完成任务,此时,空间众包平台更倾向于将每个任务分配给多个工人,这种分配方式称为群组任务分配(Group Task Assignment,简称GTA)。任务分配是空间众包中一个重要的研究方向,对于空间众包中复杂的任务,需要
学位
由于高维数据的空间分布具有簇间差异性和簇内相似性,使得对其进行聚类分析成为可能。然而高维数据结构复杂、冗余信息多,使得高维数据聚类仍然是机器学习与数据挖掘领域的难点之一。基于数据自表示的子空间聚类模型因其扎实的理论基础以及良好的性能表现,近年来引起了数据科学家们的广泛关注。但现有工作中依然存在着以下问题:一是缺乏有效的局部几何结构保持机制,导致相似性度量不准确;二是传统的子空间聚类模型一般采用单层
学位
互联网信息时代中的大多数青年群体因长时间伏案工作和运动量的减少导致脊椎负载能力和负荷量出现平衡失调,在脊椎形态上出现不同程度的弯曲,背部呈现向后凸起并伴有脖子前倾的体态。本文以男青年轻度弓背作为切入点,探讨体表各角度档差分类、纸样放量特征点以及版型的修正方法,探索轻度弓背体男西装放量特征点以及各部位的调整量,为该人群合体型男西装品牌版型设定提供参考性的建议,在个性化定制服务模式中建立起适应轻度弓背
期刊
深度强化学习算法将传统强化学习与深度学习两者结合,是目前解决高维决策任务的一类典型算法,已在各领域广泛应用并取得了突破性进展。经验回放机制是深度强化学习中一项关键技术,可以在消除时序样本相关性的同时提高经验样本的利用率。传统的经验回放方法通过对经验样本进行统一存储并随机采样来完成智能体的训练过程,未考虑到不同重要性程度的经验样本对于模型训练的不同影响。本文着眼于提高基于经验回放机制的深度强化学习算
学位
为更好了解西藏高寒草地退化的成因,更加系统、合理地治理高寒草地退化,对前人的研究成果高寒草地的现状、退化成因进行总结、归纳和分析,并提出修复途径,以期有效保护青藏高原草地,建设青藏高原生态屏障。
期刊
随着人工智能技术的快速发展,自动驾驶(Autonomous Driving,AD)的研究备受人们关注。深度强化学习算法(Deep reinforcement learning,DRL)是自动驾驶的主要应用方法之一,该算法目前已经成功应用于游戏、医学、机器人控制等领域。大部分DRL算法为了提高样本的覆盖率,没有对探索方法进行安全限制,应用于自动驾驶模型时,智能体在探索过程中可能陷入某些危险状态,导致
学位
网络信息日益膨胀,信息过载问题也日益严重,推荐系统逐渐成为解决这一问题的重要途径。单领域推荐往往会受到数据稀疏和冷启动等问题的影响,因此跨领域推荐成为了推荐系统中一个新的研究分支。在现实生活中,相似的用户可能在不同的领域有相似的品味,这使得跨领域推荐成为一种很有前景并且非常实用的推荐技术。然而,由于负迁移的存在,我们在如何联系用户在不同领域的交互行为,以及如何充分利用辅助领域来帮助用户完成目标领域
学位
战斗部在高能炸药爆炸作用下,形成大量高速破片,这些破片通过侵彻、射流等方式毁伤目标。通过对战斗部破片进行检测与跟踪,获取破片飞行状态和飞行参数,为战斗部毁伤威力提供重要参数依据。由于战斗部破片具有速度高、尺寸小、数量多等特点,以及靶场试验环境复杂多样,一般的图像处理方法满足不了高速摄影中破片图像处理与测量的需求。因此,研究基于深度学习的破片群目标检测与跟踪具有重要的工程应用价值。论文的主要研究内容
学位