一种细粒度的并行批量知识问答

来源 :天津大学 | 被引量 : 0次 | 上传用户:shenglove5
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识问答方法允许用户以输入自然语言问句的方式访问知识库中的内容,它帮助用户以一种更加自然的方式获取知识库中内容。问答系统要为海量用户提供服务,因此它需要具备高效处理批量问句的能力。并行是高效处理批量问句的一种简单但有效的方法。然而,并行的批量知识问答方法面临如下三个挑战:首先,批量问句之间可能包含子问句层次上的公共语义,而公共语义的冗余处理会导致时间代价的巨大浪费。复杂问句与简单问句处理时间代价相差悬殊,难以做到将批量问句的代价较为平均的分配给各个并行处理单元。事实上,将问句分解后,在子问句层次上更容易将批量问句代价平均分配。其次,现有知识问答方法普遍依赖第三方工具,例如实体/关系识别工具。而在并行场景下,这些第三方工具会严重制约问句并行处理效率。最后,细粒度的问句并行处理会导致问句数量的显著增长,为了应对这种场景,一种准确预测问句解析时间代价的方法需要被提出。为了解决以上问题,本文提出了一种细粒度的并行批量知识问答方法。它由三部分组成,分别是:公共语义探测,批量子问句解析,以及并行子查询处理。在公共语义探测模块,提出一种基于语义图的问句分解方法来探测批量问句中子问句层次上的公共语义,它不仅避免了对公共语义的冗余处理,还将大量复杂问句分解为了易于被解析的简单子问句。在批量子问句解析阶段,将SPARQL看作一种特殊的自然语言,基于这个假设,提出一种基于翻译的元学习方法来将自然语言问句批量地翻译为对应的SPARQL查询。元学习方法很好地克服了少样本训练这一挑战。更重要的是,这种基于翻译的方法不依赖任何第三方工具,对并行处理更加友好。在并行子查询处理模块,提出一种基于代价预测的查询分组方案以及一种内存占用小的RDF数据存储与管理方案,它能高效的在内存中并行处理批量简单SPARQL。本文提出的细粒度的并行批量知识问答方法不仅可以避免对批量问句中公共语义的重复处理,还可以在不依赖任何第三方工具的情况下对批量问句进行解析,因此它实现了更高地并行处理效率。实验证明,本文提出的方法不仅能高效率的处理批量自然语言问句,还在Web Question,QALD和Simple Questions等标准问句测试集上取得了很高的问答精确度。
其他文献
近年来,计算机视觉领域在深度学习的推动下快速发展,基础网络架构的研究以及模块化结构的设计成为提升任务性能的重要研究方向,注意力机制是其中重要一种,在图像分类、目标检测、图像分割等多项计算机视觉任务上都表现出了优异的性能。但是同时,注意力机制的应用也在原始的网络架构的基础上引入了大量的参数和计算量,因而降低了模型的推理效率。本文围绕注意力机制在计算机视觉领域的应用展开研究,探索注意力机制在计算机视觉
学位
目的:输尿管软镜、软镜相关耗材及激光的改进让输尿管软镜碎石取石术的适应证不断扩展。本文将探讨头端可弯曲负压输尿管软镜鞘在输尿管软镜技术处理大负荷肾结石中的有效性和安全性。方法:回顾性分析2021年4月—2022年12月浙江大学医学院附属第一医院和浙江省新昌县中医院完成的55例≥2 cm肾结石手术患者的临床资料。所有患者均使用头端可弯曲负压输尿管鞘配合输尿管软镜下钬激光碎石取石。收集患者的基线特征、
期刊
学术合作网络蕴含着学者的合作模式与学术发展的趋势,通过学术合作分析可以快速掌握最新科研动态和获取领域内重要科研人员,最终实现对领域学术技术的总体把握。复杂网络表示学习是分析学术合作网络必不可少的敲门砖,但是目前的表示学习模型多注重保留节点的一阶、二阶相似性,很少可以保留网络中与空间无关的结构相似性特征。故本文以学术合作网络为研究对象,针对上述问题,对具有良好解释性的非负矩阵分解的复杂网络表示学习方
学位
语言建模在自然语言处理和与信息检索相关的任务中至关重要。在统计语言模型出现之后,有人提出了量子语言模型(QLM),在相同的概率空间中统一单个词和复合词,而无需以指数的方式扩展词表空间。尽管量子语言模型在专项检索中取得了良好的性能,但它仍然有两个主要局限性:(1)量子语言模型无法利用监督信息,这主要是由于密度矩阵的迭代和不可微估计。(2)量子语言模型假定单词或单词相关性的可交换性,而忽略单词的顺序或
学位
“十四五”规划纲要指出,要加快发展智慧农业,推进农业生产经营和管理服务数字化改造,全面推进乡村振兴。随着快递配送业务系统的不断完善,电商覆盖面不断扩大,线上销售更加普及。因此,充分利用电子商务平台优势深化农产品电商发展,成为农民专业合作社(以下称“合作社”)、家庭农场等新型农业经营主体助力乡村振兴、促进农业数字化发展的重要突破口。
期刊
舆论场是舆情存在的基本形式,对舆论场建模同时预测其信息传播规模,对于新发重大风险事件的监测、预警和应对具有重要的研究意义。然而,在计算机科学领域尚未有一个明确的舆论场概念界定,且传统的信息传播模型不能有效提取舆论场信息传播的潜在特征,导致预测结果不够准确。因此,本文基于本体并融合多元空间要素对舆论场建立概念模型,同时研究其信息传播预测问题,具体工作如下:首先,提出了基于“地-事-人-行为”的多层异
学位
时代不停向前发展,技术也随之不断进步,如今移动互联网已经越来越普及,现代生活正在逐步进入人工智能时代。互联网成为了大众群体无论是日常休闲还是工作学习时发表自身看法和建议的重要平台,因此在每个平台上,各行各业中都产生了大量的文本信息,而公众的情绪就蕴藏在这些观点和态度之中,同时这些文本情绪可能会对事件的未来发展趋势起到一定程度的影响。情感分析旨在判断文档、句子级别上各种类型文本的情感极性,不论是在理
学位
近年来科学文献分析已经成为热门研究问题之一。通过对科学文献进行构建复杂网络分析研究,挖掘科学文献的内在规律可以熟悉前沿科研动态,获取科学领域内重要科研人员,掌握重点科学领域的研究现状和发展趋势。这是科学文献情报分析的重点,同时也是情报分析领域的重要问题之一。但是传统的科学文献分析方法大多停留在宏观问题上,如仅仅关注影响评估等工作,而对科学文献中科研人员的主题合作,以及某领域内研究主题演化等内容缺乏
学位
背景:髓内钉置入内固定是治疗股骨干骨折的经典方案,其远端瞄准架被广泛应用于远端锁钉的置入,提高了远端锁钉置入的准确率,但其失败率仍然不容忽视。研究出一种可实现远端锁钉快速且精准锁钉的新技术,减少徒手锁钉时的X射线放射性损伤,是当务之急。目的:比较占位压杆技术和徒手锁钉技术在股骨髓内钉远端锁钉置入中的效果。方法:建立发生压杆偏移不能准确置入远端锁钉的股骨模型骨8个,分2组处理:占位压杆组(n=4)采
期刊
一条完整的漏洞描述应当具备六种关键信息:漏洞类型、根本原因、受影响的产品、影响、攻击者类型和攻击载体。这种漏洞信息的组合方式可以方便软件维护人员有效地管理,缓解和预防日益增多的软件漏洞。然而,在通用漏洞数据库(CVE)中存在着较为严重的关键信息缺失问题。关键信息的缺失会导致研究人员无法准确的分析漏洞的状态和特征,致使许多基于漏洞报告进行的研究在结果上产生较大的误差。尽管现有的漏洞报告正在随着漏洞分
学位