基于大规模中文知识库的自动问答系统研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:taohua3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识库问答融合了自然语言处理的核心技术,旨在利用知识库中的三元组回答用户的自然语言问句,现已逐渐成为人机交互的新趋势。面对大规模知识库,自动问答技术提供了一种高效、准确的信息获取方式与途径。近年来,国内外开始涌现一些大规模的知识库,如国外的Freebase、DBpedia,以及国内由NLPCC在2016年在KBQA评测任务下提供的开放域中文知识库等等,它们都提供了大量数据基础,使得基于大规模的知识库自动问答再次成为NLP领域里学者们研究的热点。基于知识库的自动问答是以知识库的三元组为中心,涉及的自然语言技术有命名实体识别、关系抽取、实体链接、实体消歧、答案检索等,通过分析问题和检索知识库得到答案。然而,由于知识库领域的差异、规模的庞大等问题,知识库问答一直面临着挑战。目前的知识库问答主要着眼于问题解析和三元组匹配,以此为基础进行答案检索。然而传统方法容易忽略不同匹配子任务之间的关联,比如问题解析中的实体抽取和关系抽取,使得出现任务间孤立和冗余信息传播等问题。此外,由于大规模数据的标注情况不佳,低频词以及未登录关系对模型的泛化性能也会产生影响。本文选择用深度神经网络建立联合模型对此类问题进行改进。本文将知识库问答任务分解为三个子步骤:问题解析、实体链接和消歧、答案检索。基于上述基础,本文的主要工作包括如下几个方面:1.提出了一种基于自注意力机制的联合抽取模型Joint E-SA。问题解析是知识库问答的首要步骤,本文将问题解析分为两个子任务:实体识别和关系抽取。鉴于以往的管道抽取采用先抽取实体,再抽取关系的方式,但是往往忽略了实体和关系间的联系,同时导致实体抽取时产生的错误或冗余信息影响关系抽取的结果;而联合抽取更加关注子任务之间的联系,通过共享底层等方式,在多任务学习的基础上建立实体关系联合抽取。NLPCC的问答数据集上,取得了80.2的F1值。2.实现了一个端到端的中文知识库问答模型Joint-KBQA。利用实体链接,负采样等技术对实体和关系数据进行处理,建立实体映射字典和关系的负样本训练集,并对联合模型进行训练。实体识别时,主要是识别实体的边界;而关系抽取时,将关系抽取看作是一个二分类任务。实验结果证明了本文模型的有效性,平均F1值达到83.7,高于NLPCC官方发布的评测榜首的问答系统平均F1值。3.首次将实体关系联合抽取的方法应用于大规模中文数据集NLPCC-KBQA。并且问答系统平均F1达到83.7,高于此数据集上已发表的其他自动问答系统。另外,相较于模型应用较多的英文数据集,本文提供了中文问答模型的设计思路和实现方法,具有现实意义。
其他文献
为解决传统DSG变速箱装配车间中因采用传统物流方式而造成的车间效率低、成本高和柔性低等问题,实现车间生产智能化,本研究在DSG变速箱装配车间生产线的物流环节引入自动引导搬运车AGV(automatic guided vehicle)。AGV的应用可以显著提升生产效率和生产柔性。相应地,车间和路径的数学建模、AGV路径规划和优化、以及多AGV的调度等方面的研究就至关重要。本文研究思路为:结合车间生产
随着对动压、动静压轴承向精密重载方向的发展,表面形貌对轴承性能的影响越来越显著。在轴瓦表面加工不同形状及分布方式的微凹坑,可以显著提升承载性能,降低摩擦功耗和温升。论文以计入表面微凹坑的动压轴承和带有深浅腔动静压轴承为研究对象,首先将表面微凹坑因素引入到雷诺方程,基于微凹坑流量平衡建立了油膜特性数学模型;然后采用差分法离散求解得到了滑动轴承静、动特性及稳定性参数随微凹坑深度、面积率、形状和排布方式
目的通过调查河南农村留守中小学生心理健康状况以及留守与非留守中小学生心理健康状况的差别,比较分析留守等因素对中小学生心理健康的影响程度,揭示河南省留守中小学生心理健康新情况,为有效促进留守儿童健康成长提供理论依据。方法采用多阶段分层整群随机抽样的方法,在河南省安阳、新乡、南阳三市农村普通小学、初中及高中共计18所学校抽取调查对象。采用自制的社会人口学信息调查问卷、王极盛教授编制的中学生心理健康量表
DL-高半胱氨酸硫内酯盐酸盐是一种含硫的环状氨基酸衍生物,是化工医药和材料合成方面的重要中间体。鉴于DL-高半胱氨酸硫内酯盐酸盐的应用价值大和应用范围广,开展DL-高半胱氨酸硫内酯盐酸盐制备工艺的研究和工业化生产具有非常重要的意义。本文以DL-蛋氨酸、浓硫酸、氢溴酸、盐酸、锡粉等为原料合成DL-高半胱氨酸硫内酯盐酸盐,其研究内容及结论如下:以DL-蛋氨酸、浓硫酸、氢溴酸为主要原料合成DL-高胱氨酸
背景与目的:食管癌是发病率和死亡率很高的恶性肿瘤,我国食管癌发病率和死亡率均占全球的一半以上。鳞状细胞癌约占我国食管癌的90%。食管癌早期症状不明显,多数患者发现已经是中晚期,直接手术难度大且预后较差。新辅助化疗在局部晚期食管鳞癌的治疗中被广泛接受,但是经过根治性手术的食管鳞癌是否需要辅助放化疗或放疗还是一个未知数。本文的目的是研究辅助放化疗或放疗是否可以改善行新辅助化疗后根治性切除术的局部晚期食
研究背景及目的胃癌是全球常见恶性消化道肿瘤之一,其发病率及死亡率均位居世界前列。我国约80%胃癌患者确诊时已进入中晚期阶段,单纯手术切除效果不理想,术后复发、转移率高,总体生存率差,而且术后给予辅助治疗也未能达到满意的疗效。为降低肿瘤分期,提高R0切除率,改善患者术后的生存状况,术前新辅助化疗已被应用于局部进展期胃癌(Local Advanced Gastric Cancer LAGC)患者。第8
随着通信技术的迅速发展和电子设备的广泛应用,电磁污染已经成为工业、商业以及军事等领域不容忽视的问题,这些电磁辐射干扰不仅会影响精密电子仪器及系统的正常使用,还会污染环境及影响人类健康。因此,需要有效的举措来控制或减轻电磁污染。电磁屏蔽材料是实现高效电磁屏蔽的关键因素。传统的电磁屏蔽材料以金属材料及聚合物复合材料为主,但已难满足快速发展的可穿戴电子设备的要求。与此同时,日益复杂和多元化的电子器件使用
背景食管癌是全球范围内常见的消化道恶性肿瘤,恶性程度高预后差,死亡率在全部癌种中排第6位,在我国位于第4位。由于食管癌病情隐匿,绝大多数患者确诊时已于中晚期,经单独手术的总体5年生存率较低。经过近几十年来的探索,新辅助化疗被证实可以对肿瘤进行降期、消除微转移并延长患者远期生存,新辅助化疗已经逐步成为食管癌尤其是局部晚期食管癌的主要治疗方式之一。根据多项临床研究的结果表明,新辅助化疗有效的患者其5年
学位
背景和目的肾细胞癌(Renal cell carcinoma,RCC)是泌尿生殖系统常见的恶性肿瘤。经循环转移是肾细胞癌转移灶形成的重要途径。循环肿瘤细胞(Circulating tumor cells,CTCs)是指肿瘤细胞从原发部位脱落或转移到外周血中的肿瘤细胞。它们可能附着并生长在远处器官,长期以来被认为是肿瘤侵袭性的标志。循环肿瘤细胞的检测为评价肿瘤负荷和侵袭性提供了一个新的有力工具。在本