基于深度学习信息抽取和知识图谱问答的研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:lianjinling27
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着移动互联网的发展,大量用户可以方便地在互联网上发表自己的原创内容,大量内容以非结构化的文本形式存在。当用户要检索这些文本内容时,要花费时间从繁杂的检索结果中找到想要的结构化信息。为了方便用户更快速、更精确地获取结构化的信息,自动化的信息抽取方法成为满足这个需求的关键。信息抽取研究如何从一段非结构化的文本中抽取出若干结构化的信息,如三元组。三元组以<主实体,关系,客实体>的形式存储结构化信息,形成知识图谱,方便其他模块调用。传统的信息抽取方法如规则模板、机器学习等方法的特征工程复杂,建模、抽取效果并不理想。深度学习方法通过简单的特征工程建立输入到输出之间的映射关系,抽取效果更好。基于深度学习的信息抽取方法可以分为两类:一是流水线抽取,划分为两个独立的子任务,任务关联性弱,影响最终性能;二是联合抽取,两个子任务通过共享编码层建立关联关系,子任务模型共同训练,性能更好,但是子任务之间共享信息比较单一。两种方法都存在解码慢的问题。为了解决联合抽取方共享信息单一的问题,同时研究不同的子任务划分对模型性能的影响,本文设计了两个基于注意力机制的层次二分标注信息抽取模型:P-SO模型和SP-O模型,在共享编码的基础上,利用注意力机制融合两个子任务之间的流动信息,使得两个子任务关联性更强。本文设计的两个模型特征工程简单,没有利用任何自然语言处理工具,如分词、词性标注等,避免引入新误差的同时,在工程应用中还可以获得更快的推断解码速度。本文还设计了不同的实验,研究字不同向量、不同的循环神经网络对模型性能的影响。本文设计的信息抽取模型,在只利用字向量和位置向量的简单特征工程情况下,SP-O模型的F1分数达到0.801。为解决样本逐条推断解码速度慢的问题,本文设计了批处理推断解码方法,用GTX 1050Ti显卡在数据集上的推断解码速度达到359条/秒,对比逐条推断解码速度平均提升817%。信息抽取任务完成后,本文结合三元组知识图谱的应用场景,设计了基于知识图谱的问答系统,实现包括信息抽取、三元组管理和知识图谱问答、展示等功能,设计的问答流程巧妙地利用了SP-O模型中的SP子模型处理用户问题,避免文本相似度的复杂计算,可直接得到答案。最后设计实验验证问答流程的正确性、问答系统的稳定性和响应的及时性。
其他文献
硼(B)是高等植物正常生长发育必需的微量营养元素之一,我国大多数柑橘种植产区土壤含硼量较低,柑橘缺硼现象比较普遍,并且缺硼已经严重制约了我国柑橘产量和品质的提高。因此,对于柑橘产业而言选育缺硼耐受能力较强的柑橘品种和提供缺硼土壤相应栽培措施的应用理论依据具有十分重要的意义。本课题组前期研究了纽荷尔脐橙缺硼后的生理代谢反应,发现不同部位、不同缺硼程度的叶片中有机酸含量差异明显,但是硼在有机酸代谢中具
柑橘是全球最重要的水果作物之一,在我国广泛种植。但是,随着全球气候变暖,极端天气频发,柑橘类果树遭受低温冻害现象严重,对柑橘产业造成不利影响。利用柑橘野生资源进行抗寒育种是解决这一问题的途径之一。崇义野橘(Citrus reticulata)是源于江西省赣州市崇义县的野生柑橘品种。本研究以崇义野橘和传统柑橘砧木枳(Poncirus trifoliata)实生苗离体枝条为试验材料,测定0℃处理下两者
植物修复是一种生态环保、应用前景广阔的土壤修复技术,其应用的基础是植物对重金属的耐性。现有超富集植物种类少,且大多生物量小、生长慢,观赏性低,与之相比,圆叶锦葵(Malva pusilla Sm.)生物量大、观赏性高、生态适应性强,园林应用基础广泛,是可运用于植物修复实践的良好材料。本研究以圆叶锦葵为试材,采用盆栽试验,研究不同浓度镉处理下[0(CK)、5、15、30、60、100mg/kg]圆叶
圆叶锦葵(Malva pusilla)作为锦葵科锦葵属多年生草本植物,具有分布范围广、繁殖能力强等特点,且具有较强的耐镉(Cd)特性,可作为土壤Cd修复的潜力植物。本研究以圆叶锦葵为供试材料,在水培条件下,设置不同Cd浓度(0,50,100,200μM)处理,通过测定Cd胁迫下圆叶锦葵的生长、光合色素含量、抗氧化酶(SOD、POD、CAT)活性、丙二醛(MDA)含量、渗透调节物质(可溶性糖、可溶性
土壤中镉(Cd)、锌(Zn)污染往往复合发生,对植物及生态安全产生严重不良影响。波斯菊(Cosmos bipinnatus)是一种高观赏价值、抗逆性强的Cd积累性植物。本研究以波斯菊为试验材料,通过测定Cd/Zn的吸收和转运、Cd/Zn的亚细胞分布和化学形态、抗氧化酶活性以及分析根系转录组数据,探究了波斯菊对Cd、Zn及Cd+Zn胁迫的生理及分子响应机制。主要研究结果如下:1)植物表型及Cd、Zn
水体富营养化引发的蓝藻水华是全世界范围内湖泊生态系统面临的共同威胁。除了人为干预降低水体营养盐输入,水体自身的脱氮作用越来越引起人们的重视。反硝化作用是富营养湖泊最重要的脱氮途径,在蓝藻水华情景下,可同时发生在底泥-水界面和水柱中的蓝藻群体颗粒中。而目前对于后者介导反硝化过程的通量和机理的了解都比较少。本研究以太湖蓝藻群体颗粒为研究对象,通过扩增子测序、15N同位素标记与微宇宙体系培养、细菌分离和
赣南地区以山地丘陵为主,长期清耕栽培使得脐橙园水土流失现象较为严重。赣南地区脐橙的主栽品种为纽荷尔脐橙(Citrus sinensis Osbeck cv.Newhall),果园土壤以有机质含量相对偏低的红壤为主。长期不科学的管理模式更是导致土壤酸化、板结严重。为保持赣南脐橙的高产,化学肥料的大量施用使得赣南地区果园土壤问题逐渐显现。本研究以赣南地区典型的红壤为研究对象,探究有机肥(干鸡粪)与无机
随着电子科学技术的发展,现代车载通信系统上装备的电子电气设备越来越多,这些设备在车辆内部形成了一个复杂的电磁环境。并且在实际战场环境中,车载通信系统不仅会受到敌方设备的有意干扰,还可能会受到友方设备的无意干扰,导致车载通信系统面临的电磁干扰问题愈加突出。论文选题源于“XXXXX电磁环境效应测试与评估系统”项目。本文基于分级筛选法提出了一种新颖的车载通信系统电磁干扰预测方法,以定量表述车载接收机的干
自然环境中有许多因素如负氧离子和噪音影响着人对环境的感知,这些因素对人的身体与心理皆产生不同程度的影响。绿道,是城市居民与自然环境互动关系最为密切的公共活动场所,目前关于绿道环境的研究主要集中在对物理环境特性或在视觉对照层面,而对于绿道环境对人体直接的生理和心理的影响的研究相对较少。为了研究绿道环境对人体生理和心理产生的影响,对城市绿道的设计提供依据,本文以三种不同自然环境(城市街道、灌草绿道、密
苹果是蔷薇科苹果属的植物果实,原产于两半球温带地区,具有2000多年的栽培历史。我国是世界最大的苹果生产国,约占全世界苹果总产量的57%,同时苹果也是我国栽培面积和产量最大的水果。苹果不仅含有丰富的营养成分,还含有许多活性功能成分,多酚就是苹果中一类重要的功能成分,对人体健康具有重要的作用。本文研究了不同加工处理对苹果多酚含量、组成、分布形态和活性的影响,摘要如下。(1)苹果的总酚和总黄酮的含量为