基于精细语义感知和鲁棒性诊断的问答匹配方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:Alkaid
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
问答匹配是自然语言处理领域的重要研究方向之一,主要包含答案选择和问题复述识别两个子任务。其中,答案选择任务的目标是判定“问题与答案”之间的语义相关性,用以优化问答场景下目标答案的召回质量;问题复述识别旨在判定“问题与问题”之间的语义是否等价,用以提高问答场景下同义问题(已知答案)的召回精度。两者皆是实现智能问答的核心技术,且在搜索引擎、社区问答以及智能客服等实用场景中有着广泛的应用。现有的预训练语言模型能够在“文本对子”之上形成统一的编码表示,其输入结构和运算模式适用于处理问答匹配任务。然而,直接应用此类模型仍将面临精细语义感知力不足以及缺乏鲁棒性两种局限性。本文基于上述问题展开以下三个方面的具体研究:1)预训练语言模型并未有效利用词块、短语和子句的独立语义信息表示,使其在匹配过程中容易错失精细粒度语义的感知。因此,本文提出一种多粒度交互推理网络,该方法对问题与答案进行多粒度语义编码,以丰富句子间的语义信息;2)微调预训练语言模型能够提高其对特定任务的精细语义感知能力,但其极大依赖于微调数据的数量与质量。为此,本文提出一种定向数据增强策略,该方法利用诱导标签对生成网络进行引导,促进问题复述识别数据的自动扩展。与传统数据增强方法相比,本文方法生成样本的质量更高、语义表达更加多元化;3)现有的研究缺乏对模型鲁棒性的深入探讨,尤其在数据资源相对稀缺的中文领域,模型的鲁棒性更加难以评定。为此,本文构建了一个符合中文语言学特征的评估数据集CQMrobust,其能够按照中文语言现象对问题复述识别模型进行系统化的鲁棒性测试,有助于分析现有预训练语言模型在该任务上的优势与不足。本文从多粒度交互、定向数据增强及鲁棒性评估三个角度出发,一定程度上缓解了问答匹配领域中精细语义感知力和鲁棒性不足的问题。在公开数据集WPQA、LCQMC以及CQMrobust上的实验均验证本文所提方法的有效性。
其他文献
随着移动互联网的飞速发展以及大数据时代的来临,用户通过终端能获得的信息量爆炸式增长,产生了“信息过载”。为了从海量信息中挖掘到用户感兴趣的信息,推荐系统应运而生。其中,POI(Point of Interest)推荐是推荐系统中的重要场景。POI推荐旨在根据用户的历史交互序列,学习出更准确的用户兴趣表示,以便于向户推荐感兴趣的景点。但在现实生活中,历史交互序列无法反映出用户的当前动态偏好。而对话推
学位
事件检测是信息抽取领域的一个重要子任务,其主要目的是根据上下文识别出句子中的触发词及其事件类别,对于开发自动信息提取技术有着重要的意义。自然语言中事件信息的多样性为该任务带来了很大的挑战,本文从研究句子事件类别信息的角度入手,主要研究内容如下:(1)基于句子类别聚类的事件检测方法针对目前大部分事件检测研究忽略了句子之间事件关联的问题,本文从事件聚类角度出发,提出了一种基于句子类别聚类的事件检测方法
学位
元学习旨在充分利用少量的数据,学习出高效通用的知识,从而快速适应新任务。相比于传统深度学习,元学习降低了对大规模数据集的依赖,在一些难以获得大量数据的实际场景中具有较好的应用前景。目前元学习已取得许多卓越的研究成果,但在基于度量的元学习研究方向中仍然存在数据特征质量不高、度量方式不够适用、算法自适应性不强的问题。本文针对以上问题进行研究,具体创新点如下:(1)提出了特征自适应元学习算法,主要针对数
学位
研究如何运用设计手段发展乡村旅游,对改善乡村人居环境乃至整体推进乡村振兴战略,都具有重要意义。随着时代的发展和认知的进步,人们在进行旅游活动时对居住空间的需求也在逐渐发生变化。可移动屋舍具有灵活性强包容度高、可变性强、与乡村环境融合较好等特点,与乡村旅游发展中待解决的个性化、差异化、经济化、实用化等需求完美契合。文章从乡村旅游中可移动屋舍设计入手,力争通过“小切口、大纵深”的研究方式,通过使用文献
学位
随着全球学术活动蓬勃发展,学术文献的数量和学术研究者的人数与日俱增。因此,数字图书馆、学术搜索引擎等科技服务应运而生,为学术研究者提供了便捷的信息检索服务。然而,由于作者姓名的歧义性,文献知识库无法保证返回数据的准确性。这大大影响了人们学术活动的准确性和效率。在这一背景下,对于同名作者消歧问题的研究是很有意义且必要的。针对该问题,本文的研究内容概括如下:(1)为了有效地处理属性特征丢失严重的情况,
学位
随着移动定位设备的普及和网络通信设施的完善,海量轨迹数据能够被实时地收集。这类时空轨迹数据可用于轨迹知识挖掘、信息提前获取,如驾驶异常检测、交通拥堵监测与预测、疫情下人群聚集行为监测等应用场景的建设。时空轨迹大数据具有传统大数据的4V特性,并且其信息价值将随着时间流逝而衰减,如对于交通路况信息,即时的结果信息发布将能更有效的规避道路拥堵,为此实时处理轨迹数据将是本文重要关注点。轨迹聚类是上述城市应
学位
事件可信度是指面向特定事件源的事件发生的可信程度。目前事件可信度识别缺乏在生语料上的研究,并且仅考虑事件在默认源下的事件可信度。对此,本文进行句子级端到端事件可信度识别的研究,识别生文本中的事件、事件源以及对应的事件可信度,更具有现实意义。首先,事件可信度的已有研究大多数依赖于标注信息,没有考虑到事件可信度识别在生语料上的性能,同时也忽略了事件源对事件可信度的影响。针对这些问题,本文提出基于混合模
学位
基于水蒸气的供暖工程是寒冷地带政府与居民关注的民生工程,阀门是供暖工程中的标配设备。传统无信息输出的供暖阀门存在后期维护不及时、故障定位不精确等问题,为居民带来安全隐患。利用远程无线通信及微控制器进行信息阀门的设计,来解决阀门状态信息采集与远程阀门控制的问题,成为供暖工程阀门设计开发的研究热点。本文基于2017以来国家大力推广的窄带物联网技术(NB-IoT),研发一款具备远程信息传输、远程开关阀控
学位
在日常生活中,多人对话的场合无处不在,作为人们交流沟通的主要方式,其蕴含着丰富多彩的信息。挖掘多人对话场景下的情感信息对许多工业界的应用有着十分重要的意义,例如社交媒体分析和智能客服。然而,不同于传统的文本情感识别,多人对话中话语的情感不仅受其本身和其所在上下文的影响,而且依赖于说话者的个性和他们之间的交互。另外,说话者的情感状态还会受到包括话题、观点、说话者的行为和意图等复杂因素的影响。针对上述
学位
由于互联网产业的特殊性,用户的一切操作都基于软件本身,此时庞大的用户体系真正需要的是一款质量过硬的软件产品作为技术支撑。软件质量好坏是由软件能的用户满意度决定的,如果软件质量不达标,用户体验度降低,企业将会面临巨大的流量流失,不利于企业的长期发展。近些年用户需求在时间、感知度以及多变性上也提出了更高的要求,企业为了尽快推出符合用户需求的产品就需要企业加快开发进度、缩短开发周期、积极响应用户随时变化
学位