基于深度学习的问句语义相似度匹配算法研究

来源 :北方工业大学 | 被引量 : 1次 | 上传用户:zdhks008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着问答系统和搜索引擎的不断发展,如何准确的匹配到用户所提问题和对应答案是至关重要的,目前大量的提问方式层出不穷,由于中文分词和语义获取的复杂性,基于中文的语义等价任务在没有给定场景的前提下直接判断两个问句的语义,仍存在相同的意思也可能被错误理解的问题,因此,高精度的问句相似度分析算法在大数据时代扮演着越来越重要的角色。传统的问句相似度匹配方法仍存在很多问题。一方面,底层的特征提取效果不足,对于长短句的信息提取方法无法达到一个平衡;另一方面,在两个问句进行匹配算法计算结果时,存在信息特征丢失的问题,随着深度学习训练的不断加深,语义的信息匹配存在误差和不足。针对以上问题,本文提出了一种丰富特征信息提取的RFEM(richer feature extraction model)模型。该模型通过多角度信息特征提取的方法,在海量的数据中,计算并保留最大化的底层信息特征;同时,对于两个句子的语义匹配方法做了改进,有效地对齐并匹配了两句话的语义信息内容是否一致。本文研究的主要内容分为以下两方面:(1)提出了一种基于多模型同时提取特征的算法融合方法,即在编码层中,使用CNN和LSTM分别提取信息特征,CNN侧重局部特征的提取,LSTM侧重序列特征的提取,通过大量实验和长短句可视化结果的分析,CNN对于短句的信息提取更准确,LSTM对于长句子的语义特征提取更好,同时在循环计算的过程中融入了残差网络,采用两种编码方法对同一个句子进行信息特征提取,最大化的保留了编码层的信息特征。(2)提出了一种基于变体多头循环注意力机制的匹配算法,即在对齐层中,将两个序列的信息对齐,通过N层注意力机制,迭代计算句子的注意力权重,在每一次重新进入对齐层时融合了残差网络,加入了最原始的特征信息,该模型的变体多头注意力机制没有把初始的向量等分再结合,更大程度的保留了原始句子的全部特征信息。随着网络深度加深,梯度信息回流受阻,每经过N次注意力机制(attention)后通过全链接神经网络降维,减少了由于网络训练困难所导致信息丢失的问题。最后,通过大量实验表明,公开的中文BQ数据集存在一定的标注缺陷,通过百度公开的接口计算相似度并通过分析进行数据清洗,清洗后的数据记为BQ+,在整体模型的精度计算结果对比得出,RFEM模型在BQ数据集和BQ+数据集上的精确值结果明显优于其他模型。
其他文献
随着城市建设居民生活需求的不断增大,与燃气有关的各类风险因素也在不断增加。为了加强对社区户内燃气系统的监管,确保社区居民的安全用气,需要对户内燃气系统进行风险评估,以快速全面的了解户内燃气系统的风险水平。而现有的风险评估方法还存在一些问题。首先,目前户内燃气系统的风险评估大都为静态分析方法,这些方法只能粗略的估计户内燃气系统长期处于的安全风险状态,难以适应风险的动态特性也无法及时预测出风险事件的发
近年来频发的食品安全风险事件对我国食品安全事业的发展带来了巨大的压力,当下有关食品安全的情报分析以及研判预警已经成为食品安全监督、管理的关键环节,合理的防控机制可以有效提高食品安全的整体态势。在信息高速交互的时代,数据来源主要趋向于网络化和数字化,数据结构也变得复杂多样,数据之间的关联性尤为隐蔽而不易觉察。面对错综复杂的食品海量数据信息,传统的情报研判技术已经无法满足其需求,因此本文运用机器学习等
AGV(Automated Guided Vehicle)是一种无人操作自动导引车,主要负责工厂物料的转运工作。随着“中国智能制造2025”的提出,自动化、智能化和集成化成为各个行业发展的主流方向,因此智能物流行业迎来了一个大的发展,AGV作为物流行业重要的转运工具,具有非常大的研究价值。本课题以AGV实际的工程项目为背景,对车载控制系统的行走转向控制、货叉升降控制和安全控制部分进行了硬件的选型、
随着云计算、大数据、物联网的普及,人们迎来了第三次信息化浪潮。为了从这些海量的数据中发现有趣的模式,数据挖掘方法便应运而生。数据挖掘是将数据转化为知识的桥梁,关联规则挖掘是数据挖掘的一个具体任务,旨在从数据中发现事物之间可能存在的关联或者联系。在关联规则挖掘中,频繁共同出现的项目称为频繁项集。高效用项集挖掘是频繁项集挖掘的延伸,不仅考虑了项目在事务中是否出现,而且还使用了项目的权重信息,在现实生活
仿生微型机器人以其鲁棒性强、灵活度高、运动方式多样等优点受到了广泛的关注。其中尾鳍式微型鱼类仿生机器人因体积小而能够在有限的空间内灵活运动,因此可在狭窄水域内完成管道探查、水质检测等工作。此外,由于其仿生具有伪装性,尾鳍式鱼类仿生机器人也能够完成军事侦察等保密任务。新型功能材料驱动的微型机器鱼比传统电机和活塞驱动的机器鱼具有显著的优势。它们尤其具有高效性和紧凑性,但是往往存在推力小、驱动电压高、能
国家发展目标提出,到2025年,建筑工业化、数字化、智能化水平要有显著提高。建筑设计也应与国家发展目标相适应,将数字技术融入建筑设计中,提高设计过程的智能化。计算机自动生成设计随着计算机技术的进步而快速发展,将设计人员的设计意图通过程序设置目标与规则、定义函数、运行计算机实现自动甚至自主创作设计。该方法近年来已成为建筑设计领域重要的探索方向。本论文聚焦于高校公共教室平面设计,尝试找到一种计算机自动
随着城市道路基础体系建设日趋完善,机动车数量不断增加,使得交通拥堵成为影响人们日常生活、经济发展的重大问题,而实时、准确的交通状态信息是各种道路交通管理与控制策略的基础。本文以城市路网为研究对象,以使用GPS移动设备测量的移动轨迹数据,如速度,估计城市路网交通状态为出发点,开展了城市路网路段速度估计方法的研究。为了简化估计过程,建立了城市路网交通流模型,有助于分析路段速度的时空演化规律,为路段交通
轮腿式复合型移动机器人由于其特殊的结构,将轮式机器人和腿式机器人的优点相结合,具备了快速性和强地势适应性等特点,成为现在国内外研究的重点。虽然现阶段针对复合型移动机器人已经取得了一定的成果,但在实际的理论研究中还存在一些问题和难点,本文所研究的六腿滚动式奔跑机器人是一种典型的轮式腿型复合机器人,该机器人六条腿分两组均匀交错的分布在机身两侧,单腿交替支撑前进,可将其视作单腿跳机器人的异化形式,本文针
随着智能交通系统(ITS)的发展,人们获取交通数据的方式也更加高效便捷。浮动车技术在城市智能交通系统中的应用也越来越成熟。通过分析浮动车数据可以实时获取道路交通状态。但对于城市一些交通设备配备不完善的非关键路口或者流量不大的稀疏浮动车数据路段,个别驾驶员的异常交通行为会造成交通状态错误呈现。本文以北京市浮动车数据为研究基础,在分析处理浮动车数据的基础上,改进了道路地图匹配算法,应用道路网格划分方法
在城市轨道交通成网运营的背景下,路网规模随之增大,网络结构更加复杂,吸引了越来越多的乘客。复杂的网络结构伴随着日渐增长的客流,导致突发运营事件频繁发生,使城市轨道交通运营系统面临着巨大挑战。本文以城市轨道系统发生短时中断运营事件为背景,研究中断时间内路网客流的分配情况。首先,对北京市轨道交通系统近年来的突发运营事件进行分析,界定了短时中断事件;建立城市轨道交通网络,对有效路径进行定义,并介绍了常用