基于量子干涉的文本匹配模型

来源 :天津大学 | 被引量 : 0次 | 上传用户:xicai2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息检索领域,量子干涉理论已经被应用于文档相关性、次序效应等核心问题的研究中,旨在建模由于用户认知所引起的类量子干涉现象。然而,上述工作仅仅局限于信息检索领域,而认知干涉现象广泛存在于各类以语义理解为核心的自然语言处理与信息检索的任务中,因此本工作旨在从更本质的单词层面对语义组合过程中存在的类量子干涉现象进行建模。本文在探索文本中单词与词组语义差异性的基础上,提出了一种基于量子干涉理论的双重特征匹配模型(DuetQITM)并应用于问答、分类的文本匹配任务中,其中量子干涉理论被应用于解释单词组合过程中的语义干涉项现象,基于约化密度矩阵的建模技术可以有效捕捉语义干涉信息,并进一步扩展模型的适用性;同时,可捕获全局特征信息与局部特征信息的模型结构充分满足文本匹配任务中对于匹配信息的需求。本文在问答与文本分类任务中验证了Duet-QITM模型的有效性。与基线模型相比,Duet-QITM模型在相应评价指标上性能均有所提升。结合不同任务中的消融实验,可验证本工作基于约化密度矩阵的文本特征表示方法以及双重特征架构能有效捕获文本中词项间的语义干涉信息,并在文本分类、问答等自然语言处理任务中表现优异。
其他文献
一条完整的漏洞描述应当具备六种关键信息:漏洞类型、根本原因、受影响的产品、影响、攻击者类型和攻击载体。这种漏洞信息的组合方式可以方便软件维护人员有效地管理,缓解和预防日益增多的软件漏洞。然而,在通用漏洞数据库(CVE)中存在着较为严重的关键信息缺失问题。关键信息的缺失会导致研究人员无法准确的分析漏洞的状态和特征,致使许多基于漏洞报告进行的研究在结果上产生较大的误差。尽管现有的漏洞报告正在随着漏洞分
学位
知识问答方法允许用户以输入自然语言问句的方式访问知识库中的内容,它帮助用户以一种更加自然的方式获取知识库中内容。问答系统要为海量用户提供服务,因此它需要具备高效处理批量问句的能力。并行是高效处理批量问句的一种简单但有效的方法。然而,并行的批量知识问答方法面临如下三个挑战:首先,批量问句之间可能包含子问句层次上的公共语义,而公共语义的冗余处理会导致时间代价的巨大浪费。复杂问句与简单问句处理时间代价相
学位
在自然语言处理领域,随着深度学习网络技术的广泛应用,越来越多的复杂模型声称在规范良好的数据集上有着更好的性能表现,但是随之而来的是对深度学习网络本身可解释性的担忧,犹如萦绕在科研工作者头上的定时炸弹。最近部分研究者受到量子理论的启发,在自然语言处理领域提出了一种基于量子理论数学框架的语言模型,通过将不同的单词表示为基本量子态,并使用密度矩阵建模包含若干单词的句子,构建一个量子混合系统,以期表示人类
学位
Transformer模型已经被广泛地应用在许多自然处理任务中,其核心组件是带刻度的点积注意力机制(词级注意力)。该注意力机制是一种单词级别的设计,关注的是任意单词对之间的相似性,因此它的复杂度在序列长度上是二次级的,这也大大限制了其在长序列任务上的应用。为了获得一个更加轻量高效的注意力机制,本文提出了两种新的注意力机制。一是本文提出了维度注意力机制,并在此基础上开发了一种新的语言建模方法,名为T
学位
无监督关系抽取的方法旨在从未知标签的文本中获得实体间的关系。句子中两个实体之间的关系通常取决于他们的类别属性,而不是由该句子中的两个特定实体确定。实体的类别在粒度和含义上具有很大的灵活性,即使使用手动标记也很难正确地对数据进行标注。有监督关系抽取方法和远程监督的关系抽取方法目前已经相对成熟,然而都需要带有标签的数据集来进行训练。自监督方法旨在通过模型自身生成的标签来进行训练,因而解决了数据集标注的
学位
目的:1.重度左房自发超声显影是血栓形成的前期阶段,是血栓事件的高危因素。研究表明,D-二聚体浓度可用于排除左房血栓,但尚不清楚重度左房自发超声显影房颤患者和左房血栓房颤患者的D-二聚体浓度是否存在差异。2.对于非瓣膜性房颤患者形成的左房血栓,常规应用华法林使血栓消退,而非维生素K拮抗剂口服抗凝药物(如达比加群和利伐沙班)对血栓溶解的安全性及有效性研究资料很少。方法:1.这项前瞻性研究筛选2017
学位
Abaqus是对核环吊进行瞬态动力学抗震分析时的常用软件,其中的Translator连接器可以用来模拟带有预紧力及剪切销的水平导行装置。如何根据水平导行装置的力学特性,构建连接器模型并正确设置其参数成为决定抗震分析正确性的关键之一。本文首先通过对含有连接器的简单质量块模型进行研究,确定了Translator连接器的设置方法;其次采用2个连接器并联的方式模拟带有预紧力及剪切销的水平导行装置;最后完成
期刊
随着现代互联网技术的发展,领域之间的跨界合作不断涌现,推动着服务生态系统不断发展。领域间合作的不断加强使得跨界与融合已经成为现代服务业发展的重要特征。然而目前,由于影响因素和参与者种类众多,数据量庞大且复杂,跨界服务对整个服务生态系统的影响机制仍然缺乏研究。本文提出了一种基于多样性度量的服务生态系统跨界演化框架SETE(Service Ecosystem Trans-boundary Evolut
学位
文本可视分析和计算机辅助设计等研究近年来快速发展,引起了博物馆领域的广泛关注,并初步应用于策展辅助工作。但是,现有的文本分析工作忽略了对展览文本进行语义挖掘,无法有效支持策展选题。交互式地进行展览方案策划,支持灵活编辑和逻辑叙事等研究也有所欠缺。与陈列设计相关的工作则存在对文博领域特征关注不足和交互设计不友好等问题。本文面向博物馆策展工作场景,对文本可视分析及计算机辅助设计方法在增强数字化资源的有
学位
基于大型语料库,通过利用上下文信息训练得到的词向量已经被广泛应用于众多自然语言处理任务中,但在展现语义关系时往往表现较差。我们认为传统的实值词嵌入方法泛化能力不佳是因为语言模型的基本假设只包含了语言的分布特征,继而错误的将语用作为语义来表示单词。由于语言特征的多样性和复杂性,导致传统的实数词向量很难对复杂的语义关系进行建模,例如突现语义“ivory tower”、歧义现象(“spring”可指代春
学位