语句意图匹配方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:liongliong587
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语句意图匹配方法是自动问答和信息检索等系统的核心技术,主要用于判断两个语句中的语义意图匹配程度,在实际应用中具有重要价值。近几年随着深度学习的兴起,相关方面研究获得了突破性进展。尽管深度学习方法在语句意图匹配中得到广泛应用,其仍然面临以下挑战:1)训练样本不足的问题,很多实际应用领域难以提供足够的训练样本;2)由于语句表达的灵活多变,模型对语句中意图信息的有效编码受到一定限制;3)词语语义的多义性在现有的模型中没有得到足够的重视,限制模型性能的进一步提升;4)特定应用场景下参与匹配的语句关系复杂,使得特定场景下通用意图匹配方法无法有效适用。本文主要针对以上问题开展研究,主要内容包括以下几个方面:第一,针对训练样本不足的问题,提出基于无监督方法的问句意图匹配语料的构建方法。在语料的构建过程中,本文首先使用搜索引擎收集大规模的多领域问句对;其次,使用无监督距离算法过滤不相关的问句对;最后,具有专业背景的数据标注者对剩余的问句对进行意图是否匹配的人工标注,得到包含260 068个问句对的问句意图匹配语料。同时,本文将语料划分成训练集,验证集和测试集并使用已发布的的语句意图匹配算法进行实验,实验结果不仅证明了本文方法构建的大规模中文问句意图匹配语料的良好质量,而且还提供了可靠的基线性能以进一步研究该语料。第二,针对模型难以对语句中意图信息进行有效编码问题,提出基于语句差异性特征的匹配方法。该方法首先将语句对中的差异词汇抽取出来,其次使用神经语言模型对差异词汇进行编码,得到语句差异性特征,最后通过门控机制将语句差异性特征整合到基准意图匹配方法中。在国际开放的大规模中文问句意图匹配语料和英文问句意图匹配语料上进行实验。实验结果表明,本文提出的方法可以有效地学习到语句中的意图差异性信息并提升意图匹配性能,在各类评价指标上均优于已发表的基线意图匹配方法。第三,针对词语语义信息表示存在多义性的问题,提出了面向意图匹配的词向量分解词义学习方法。该方法首先将语句中的一个多义词转换为词向量表示,并使用胶囊神经网络对词向量进行分解得到多个类义素向量。其次,使用神经语言模型对语句进行上下文编码得到上下文信息表示。最后,使用注意力机制将上下文信息表示与多个类义素向量进行注意力整合,生成特定上下文的词义向量。本文将学习到的词义向量应用到英文问句意图匹配语料上进行验证,实验结果表明,相比于无监督词向量,该方法学到的词义向量能够更准确地捕捉到词语的语义,从而进一步提升意图匹配模型的性能。第四,针对通用意图匹配方法在特定场景下的匹配语句中性能受限问题,提出基于意图的领域内知识与文本匹配方法。该方法基于医学知识和医学文本中的意图信息,使用关系和主题胶囊网络,分别对医学知识中的关系特征和医学文献中的主题特征进行学习,并将学到的关系和主题特征作为意图信息融入到匹配算法中。在医学文献检索任务上使用人工标注的匹配数据集和排序数据集对该方法进行验证。实验结果表明,在各项评价指标上,该方法均优于已公开的不同类型基线方法。证明了医学知识和医学文本匹配语句中包含有效意图匹配信息,并且这些信息可以通过该方法融入到通用匹配模型中,进一步增强模型在医学信息检索中的匹配性能。综上所述,本文围绕语句意图匹配方法进行深入研究和讨论,针对意图匹配方法中存在的四个问题,分别提出意图匹配数据构建方法,基于语句差异性特征的匹配方法,面向意图匹配的词向量分解词义学习方法和基于意图的领域内知识与医学文本匹配方法。通过大量实验,在各自对应的数据集上进行验证,最终均取得了较优性能。
其他文献
在如今受众的注意力被严重分散的大环境下,对城市品牌形象的塑造提出了更大的挑战。地铁作为人们日常使用的交通工具,每日运载着上万或者上百万的人群。在地铁这一封闭的空间中,由于大量减少了外界环境的干扰,地铁所承载的信息或者广告对于受众的输送则更为强制和有效。郑州这座历史文化悠久的城市,而如今经济方面的卓越发展,让郑州迈进了新一线城市。城市的精神风貌如何更好的传递,城市品牌形象如何更具有核心竞争力,运用整
环境监管失职罪是我国独有的专门针对行政机关正确履行生态文明建设职能,完善环境保护机制而设立的罪名,具有环境犯罪及渎职犯罪双重属性。本文以“福建省三明市林某某、郑某某环境监管失职罪案”“湖北省某县姜某某环境监管失职罪再审裁定案”及“H省Y市姚某秋、贺某泉环境监管失职罪再审裁定案”为主线,总结并围绕三个争议焦点进行法理分析。找出司法实践过程中对该罪名适用所遇到的问题,结合当今时代发展主旋律提出相关建议
近年来,我国的经济高速发展,但同时也带来了许多的环境问题。环境侵权是一种特殊的侵权类型,既有和一般侵权规定一致的地方,也有自己独特的地方。分配好数个环境污染者的侵权责任不仅能够弥补受害人的损失,使受害人与与加害人之间的利益能更好得以平衡,有利于经济的发展和社会的可持续发展,有利于社会秩序的和谐与稳定。通常,环境污染的发生是由数个污染者导致的,由于环境污染案件的持续性、广泛性等特点,想要查明导致受害
伴随旅游规模的不断扩大,旅游方式的日益成熟,游客在旅游目的地不再满足于简单地走马观花式游览,转而向往更深层次的体验,在这一旅游诉求下,餐馆成为了游客探秘异域风情、体验异域文化的场所。从某种意义上说,餐饮本身对“地方文化”和“地方身份”的表征也使其具有可以被景观化的特质。因此,本文在旅游凝视角度下,在剥离了餐饮对生理需求满足的属性后,尝试理解游客餐饮景观的需求类型,并对旅游凝视下的餐饮景观情感属性做
清代,川盐占据贵州大部分盐业市场。川黔綦边古盐道是川盐入黔的四条运盐古道之一。綦边古盐道将自贡的井盐沿长江运至今天的重庆市綦江县后,再溯綦江而上,一直到达贵州北部、中部和南部等地区。有将近四分之一的贵州人口,所食之盐由綦边古盐道所运。盐道是食盐运输的载体,盐商是食盐销售的中介,这是綦边古盐道川盐运销过程中的重要内容。在这种背景下,綦边古盐道沿线地区社会政治、经济、文化和民族交流融合都得到了很好的发
基覆型堆积体边坡广泛分布于我国西南地区,此类型边坡的安全储备偏低,在地震下影响下易受到扰动。而西南地区除了微震频发,降雨也十分充沛,雨后边坡更易在地震作用下发生失稳。因此准确认识此类边坡在地震作用下的失稳特征和失稳机理,对相关的边坡工程设计、滑坡监测和预测具有重要意义。本文以课题组团队的室内模型试验研究结果为基础,利用FLAC3D软件研究了基覆型边坡在地震作用下的动力响应规律、失稳特征、失稳机理和
随着人类对深空探索的需求逐渐增强,采用移动式机器人登陆外星球成为了必不可少的步骤。当前月球车、火星车等外星球登陆设备均为轮式机器人,在面对沟壑、断裂以及狭窄等地形时无法胜任。仿生四足机器人兼具灵活性与稳定性,不仅可应用于外星球探索,在极端环境下的科研考察与紧急救援等多种场所均具有广阔的应用前景。在机器人进行外星球探索过程中,除了需要具备应用于地球上的传统机器人的各种性能外,由于行星表面非规则地形、
未来,电动汽车将成为全球车企满足严格油耗和排放法规的主流车型。车载充电机(On-Board Charger,OBC)可以方便的为车载电池充电,但也增加了车载变换器的体积和重量。将电动汽车的电驱动系统复用为OBC是满足重量、空间和成本要求的一种方法,集成电机驱动器、OBC和高压Boost变换器等已成为发展趋势。在车载变换器中使用碳化硅(Silicon Carbide,SiC)器件可进一步提高系统效率
生物沼气是一种由生物质厌氧发酵所产生的清洁能源,在发电、供热、天然气替代及车载燃气使用中都表现出了较好的应用前景。但是,CO2的存在不仅会降低沼气的热值,还会腐蚀运输与储存设备。因此,采用分离技术实现对生物沼气中CO2的捕获及CH4的提纯,不仅有利于生物沼气与天然气及车载燃气的互通互用,同时对CO2的资源化利用也有重要意义。与传统的分离技术相比,膜技术在成本、能效和环境影响方面都具有潜在的优势。然
氧还原反应(oxygen reduction reaction,ORR)是质子交换膜燃料电池和锌空气电池等能源转换器件的核心反应。目前,其迟缓的动力学过程严重阻碍了这些能源转换装置的大规模商业化应用。因此,迫切需要高效且稳定的电催化剂来加速这一过程。尽管铂等贵金属基催化剂表现出高催化活性,但仍受限于其高成本以及稀缺性。从长远看,开发具有高活性、低成本的非贵金属催化剂成为解决上述问题的关键。但目前,