从文本到SQL的自动语义解析算法研究

来源 :东华大学 | 被引量 : 0次 | 上传用户:gloria2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关系型数据库中存储了大量数据,是信息系统的基础和核心。用户可以使用SQL语句来检索数据库中的数据,但这通常对用户的SQL掌握水平有一定要求。为降低用户的学习成本,提高其使用效率和体验,面向关系型数据库的自然语言查询技术应运而生。它允许用户通过自然语言的方式直接与数据库交互从而获取到所需数据,其核心是将自然语言解析成SQL语句(NL2SQL)。然而,目前的NL2SQL模型仍存在如下两点挑战,包括1)问句中存在语义不足的问题;2)数据集信息未被充分利用。本文针对上述挑战展开了以下研究:(1)针对问句中存在语义不足的问题,本文提出了基于知识增强的NL2SQL方法,通过知识图谱来补充自然语言问句中命名实体的背景知识。具体来说,该模型首先使用实体链接技术将问句中的命名实体链接到外部知识图谱上,然后通过引入问句中命名实体在外部知识图谱的四类知识(摘要、类型、标签和语义关系),来增强NL2SQL模型对于问句的理解能力,进而提高解析效果。本文提出了一种基于符号化和两种基于向量化(文本向量化和图谱向量化)的知识增强方案,并系统地论证了引入不同知识的效果及不同增强方式的优劣。(2)针对数据集信息未被充分利用的问题,本文提出基于两阶段课程学习(预习+上课)的NL2SQL方法来使用数据中的信息来指导模型训练。具体来说,预习阶段的目标是训练NL2SQL模型的编码器,为了使其能学习到问句和表格的一致性编码,额外考虑了数据集中问句和表格的对应关系,设计了一个意图(表格)识别的新任务。上课阶段的目标是训练NL2SQL模型,为使其能找到更好的局部最优点,额外考虑了数据集中数据的难度差异,设计了一个模型无关的从简单到困难的课程框架。(3)在Wiki SQL数据集上进行实验。对于基于知识增强的NL2SQL方法,本文分别比较了知识图谱中四类不同的知识在一种符号化和两种向量化的知识增强方法上的效果。实验结果表明使用这四类知识进行符号化和向量化的增强均可以提升模型表现,其中使用类型和语义关系知识进行文本向量化增强的效果最好。对于基于两阶段课程学习的NL2SQL方法,本文分别比较了使用两个阶段以及联合来训练NL2SQL模型的效果。实验结果表明两个阶段都必不可少,预习阶段为NL2SQL模型提供了学到问句和表格一致性表示的编码器,上课阶段为NL2SQL模型提供了更好的训练框架。
其他文献
该英译汉翻译项目的材料来源于英国教育部针对英国职前教师培训(ITT)的项目文件。文件包括职前教师培训项目内容、英国教师的规章制度、项目标准等一系列内容,具体论述了参训教师的权利与义务,借助各培训单位的项目落实情况进行广泛的案例研究,详细解读了英国的职前教师团队建设的经验与成果。此次翻译以交际翻译理论为指导,总体采取归化的策略,以读者为中心,以交际为目的。案例分析主要从词汇和句法两个方面进行分析。词
学位
经济、文化日益全球化的今天,随着多媒体技术的快速发展,为了进一步满足国内观众的多样化需求,越来越多的外国影视作品、电视节目等进入中国。从翻译研究的角度来看,这也进一步推动了影视翻译在翻译领域的发展。然而,目前影视翻译研究的对象较单一,集中在电视剧和电影上,而影视翻译的具体策略又因作品类型的不同而存在差异。因此,笔者基于在上海电视台的翻译实践,以大阪NHK新闻作为主要的研究对象,以功能对等理论为指导
学位
随着近年来无人机产业的迅速发展,消费者更加青睐无人机产品。无人机的使用涉及到国家空域和个人隐私等问题,因此需要提高消费者的合规操作意识,此时对相关监管文件进行汉化翻译就尤为必要。本翻译实践报告基于笔者在海通国际实习时翻译的《无人机系统飞行操作和用户手册》,详细描述了从译前准备到项目交付的翻译全过程。全文共分为四个章节:第一章是翻译项目描述,主要介绍该项目的背景和意义;第二章从译前准备、译中执行、译
学位
基于我国科技成果评价改革的时代背景,通过对山西省科技成果评价改革的政策分析,结合山西省科技成果评价工作实际需要,从标准制定、机制建设、评价机构和人才培育、成果评价数字管理平台搭建等方面,提出推进山西省科技评价体系建设的关键要素,以及科技成果评价改革的具体实践和探索。
期刊
随着网络的快速发展和广泛应用,网络信息安全问题日益受到重视。用户身份认证系统是数字社会的核心基础设施,其中最被广泛使用的身份认证方法有数字签名和生物认证。然而,利用数字签名进行身份认证时,由于签名方案一般要求签名密钥是均匀随机的,生成并安全存储这样的签名密钥对用户来说是一种负担;利用生物认证进行身份认证时,一般需要用户在注册阶段把生物信息录入并存储到中心服务器上,一旦中心服务器被攻破,就会导致生物
学位
2019年,突如其来的新冠肺炎疫情不断扩散,给中国、日本乃至全世界经济及各国间的相互贸易往来产生巨大冲击,致使当前各国间贸易格局出现特殊时代背景下的新变化。从贸易形式来看,跨境电商、数字服务贸易等数字化贸易发展前景非常可观,亚太地区贸易数字化进程也在不断加快。近年来在经济社会急速数字化的背景下,人们对于网络安全和数据跨境移动相关的国际通用规则缺失的担忧越发强烈。各个国际组织、论坛正在积极开展世界通
学位
对话系统指通过自然语言与用户进行对话的系统。对话系统通常嵌入在应用系统中,提供对话式的客服、内容搜索等服务,为用户带来更加智能的体验。企业服务管理云平台是为政府管理机构汇集企业信息,以便更好地为企业提供服务的平台。为了便捷地了解辖区内企业信息,需要为平台提供一个智能检索工具。为此本文基于Rasa多轮对话框架,针对企业信息设计实现了智能检索助手,实现了基于语音问答的企业信息查询统计功能。同时对Ras
学位
在大数据时代下,常见的数据网络如社交网络等的快速发展,使得生活中每天都会产生海量的多源异构数据。图模型作为一种独特的非线性数据结构,适合用来对海量数据进行建模,并且能够较好的描述海量数据之间复杂的内在关联性。如何分析和挖掘出图中有价值的信息,成为了当下的一个研究热点。子图匹配技术用于从一个给定数据图中搜索枚举出全部的能够与给定查询图相匹配的子图,是一种分析和挖掘图中有价值信息的关键性技术,在生物信
学位
针对直升机主减系统关键部件智能化故障诊断的迫切需求,从动力学建模的角度分析典型故障状态下系统的动态响应特性有助于深化故障机理和先进诊断算法的研究.采用集中参数法对直升机主减系统典型结构建立了考虑多非线性因素的故障动力学模型,并采用多体软件进行仿真建模与校验.仿真结果表明,啮合频率与局部故障特征频率调制现象清晰明显,行星轮周向响应明显大于平移响应.该类模型能有效揭示典型故障下的振动特性,为直升机传动
期刊
为解决大规模数据传输中CRC校验的实时处理问题,文章提出了一种可同时处理256位数据的并行算法。文章首先通过递推法推导出4位数据并行运算CRC(Cyclical Redundancy Check)关系式,并将表达式系数提出转化为矩阵,在此基础上对矩阵反复迭代,求得256位数据并行计算矩阵。该并行算法推导过程直观易懂,算法实现简单。文章最后采用硬件描述语言对算法进行描述,并搭建了验证环境。仿真验证结
期刊