基于多注意力多粒度的知识库问答系统研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:weiguoliaaaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动问答是自然语言处理(Natural Language Processing,NLP)领域的一个具有重要研究意义和挑战性的新型应用。近年来,随着数据挖掘等相关技术的不断发展,涌现出一批大规模的知识库的出现,如:Freebase、DBpedia、YAGO等,根据这些知识的来源,问答可以分为:机器阅读理解,知识库问答等。知识库问答系统(Knowledge Base Question Answering,KBQA)是根据用户提出的问题,直接返回一个确定的答案,为用户提供了一种直接、高效的信息获取方式。现有的知识库问答系统研究的主要方法分为两类:基于语义分析的方法(SP)和基于信息抽取的方法(IE)。基于语义分析的方法主要是将用户提出的自然语言处理问题转化成与给定知识库相关的逻辑表达式,并利用形式化方法表示问题语义,然后根据逻辑表达式进行知识库查询得出答案;基于信息抽取的方法首先确定问句的中心实体(搜索范围),得到以中心实体为中心的一系列候选答案,然后提取相关特征与候选答案进行匹配,筛选,排序。随着深度学习技术的不断发展,研究者们开始研究基于深度学习的知识库问答,通过使用端对端(End to End)的网络模型对问句,候选答案等内容进行分布式表示学习获取正确的答案。针对中文知识库相对匮乏,同时中文的表达形式多样,语言特性复杂等特点,本文研究在上述背景之下,采用了一种融合多粒度的表示学习改进单一粒度表示学习的知识库问答方法和一种基于多视角的注意力机制的属性选择的知识库问答方法,进一步提升了知识库问答的准确率。在目前一些研究的基础上,本文具体研究内容如下:1.融合多粒度的表示学习的知识问答方法。根据中文表达的特点,本文针对问句用词等细微度的表达差异所导致的无法匹配等问题,因此本文结合字符级别和词级别的综合嵌入来进行属性选择。为了改善word2vec在中文歧义词上的效果,本文使用基于BERT-Bi LSTM-CRF的中文命名实体识别方法进行实体识别得到问句的实体。然后再知识库中检索该实体的所有三元组得到候选三元组集合,采用字,词级别结合的方式对问题和候选属性进行不同粒度层次的编码,最后进行相似度计算,将相似度最高的属性值作为答案,并在一定程度上缓解了OOV(out of vocabulary)问题。2.基于多视角的注意力机制的知识库问答方法。该方法主要针对理解问题语义,问题的多种表达形式以及根据相应答案的不同方面对应不同的问句表示,使用多种注意力机制结合的方式增加问题和属性之间的交互信息来分别表示问题和属性,然后对训练集进行训练。由于中文的表达形式多样,一词多义等特点,使用多注意力机制来进行语义的捕捉与完善,通过不同的视角以及和答案之间的交互信息来帮助更进一步地来理解问句语义信息。模型同时使用co-attention,self-attention以及注意力变体max-pooling,mean-pooling,alignment-pooling进行映射,每个映射都会使用一个实值注意力特征来加强原始向量的特征,这为后续的编码层提供了实值特征,从而改善表示学习过程。本文将上述两种方法在NLPCC KBQA公开数据集上展开实验,使用多个指标和对比实验来衡量模型的效果,并将本文实验结果与其它方法在该公开数据集上的结果进行比较,进一步证明了本文两种方法的有效性。
其他文献
睡眠时间大概占每天时长的三分之一,良好的睡眠质量对人体精力的恢复、人体各个器官的修复、大脑功能的保护、人体免疫力的提高等都十分重要。现在人们对生活质量、身体健康等的关注度也日益增加,云计算、大数据、人工智能、移动通信技术不断发展,并逐步应用到智能健康产品中,帮助人们开启全面量化健康的生活新方式。其中,睡眠健康监测床垫进去了人们的视野。睡眠健康监测床垫是一种低能耗、无干扰、使用方便、消费亲民的时时监
高质量的观测数据是实现高精度导航与定位的基础。需要对数据进行质量分析以此保证监测CORS系统的性能、保证高精度的定位。但是,常用的指标不能反映实际的GNSS相位的质量。
3月5日下午,出席十三届全国人大四次会议的我省代表团举行全体会议,审议政府工作报告、审查"十四五"规划和2035年远景目标纲要草案。中共中央政治局委员、国务院副总理孙春兰
经济全球化程度不断加深,人工智能炙手可热,服务外包行业迅速发展,各国企业竞争日益激烈。服务外包经历了IT技术推动的1.0,互联网推动的2.0,现在进入新一代信息技术“大物移
企业环境社会责任是企业在资源利用、环境保护方面所应承担的社会责任。企业环境社会法律责任是企业社会法律责任的一种,而企业社会法律责任又是企业社会责任的一部分。现实
随着我国LNG行业、低温气体贮罐、低温风洞、军用战备气体贮罐等低温气体储存行业建设发展的不断推进,以及国家对“以塑代钢”的政策支持,鼓励各行业发展轻量化、“以塑代钢”技术,逐步扩大塑料制品在工业领域的应用,以达到节能减排、绿色环保的目的,低温制冷行业用复合材料结构件的需求不断增长。目前,由于设备技术、工艺技术和产品技术都相对落后,再加上研发投入减少,严重制约了该行业在我国的发展。综上所述,低温制冷
伴随着平安城市的到来,视频监视领域获得了快速的发展,各种智能终端应运而生,而视觉目标跟踪作为视频监视的一项关键技术起到了至关重要的作用;由于视觉目标跟踪技术可以应用在自动驾驶系统中做目标的实时跟踪,因而受到研究人员的广泛关注。尽管当前已经存在了很多性能优异的视觉跟踪算法,但是这些算法还不能满足现实场景中的速度和精度要求。针对现实场景中对视觉目标跟踪算法提出的实时准确的需求,本文对现有的国内外经典的
此次毕业创作的研究内容及表现方向为《异化的自然与视觉系列创作表现研究》,因此我研究生期间一直关注着生态美术方面的作品,并将自然风景作为创作方向,通过研究生期间在云南各区域的风景写生,感受到了云南优美的自然风景,对云南的自然风光留下了很深的印象,试图在画面中结合自己的个人体验和视觉经验,呈现和建构一种异化的自然生态秩序,并以多种视觉元素的混合来表达唯美视觉表象下的荒诞性。这种异化基于自身观看经验的转
3月6日,我省代表团举行全体会议和小组会议,继续审议政府工作报告、审查"十四五"规划和2035年远景目标纲要草案。景俊海代表说,完全赞成"十四五"规划和2035年远景目标纲要草
高中英语教学的主要目标是培养学生的听说读写四项基本语言技能,英语写作作为其中之一,至关重要,能促进语言知识的内化。在传统的英语写作教学中,结果教学法被教师们普遍采用