【摘 要】
:
随着计算机技术的不断发展,人类社会中的各个方面开始与之产生紧密联系。人们日常生产生活中产生的海量数据大多以电子化的形式存储在关系型数据库中,在对这些数据进行访问时,往往需要编写SQL(Structured Query Language)来对数据库进行操作。但是,SQL本质上是一种计算机编程语言,编写SQL需要一定的专业知识,此外,还需要了解所访问的数据库模式。通过自然语言来与数据库进行交互查询数据
论文部分内容阅读
随着计算机技术的不断发展,人类社会中的各个方面开始与之产生紧密联系。人们日常生产生活中产生的海量数据大多以电子化的形式存储在关系型数据库中,在对这些数据进行访问时,往往需要编写SQL(Structured Query Language)来对数据库进行操作。但是,SQL本质上是一种计算机编程语言,编写SQL需要一定的专业知识,此外,还需要了解所访问的数据库模式。通过自然语言来与数据库进行交互查询数据,既能节省用户学习专业知识和了解数据库模式的时间,又能提高查询的效率。因此,如何根据自然语言生成SQL来查询数据库,具有很重要的研究与应用价值,并逐渐成为自然语言处理领域的热点之一。近年来,随着深度学习技术的成熟,越来越多的研究者开始将深度学习技术应用到自然语言生成SQL(NL2SQL)任务中。虽然目前深度学习模型在该领域已取得了较好的效果,但是仍存在一些待解决的问题。如在将自然语言向SQL转换时,往往需要识别出自然语言中的所提到的数据库表和列,这就要求在对数据库模式(数据库中的表和列以及它们之间的关系)进行编码时,需要将数据库中的模式信息详尽的表示出来。另外,在中文自然语言生成SQL任务中,还存在着自然语言查询中的描述和数据库存储的数据表述不一致的问题。针对这些问题,本文从提升深度学习模型生成SQL的准确率的角度出发,基于目前在该任务上较为先进的IRNet模型,做出了以下工作与贡献:(1)针对英文NL2SQL问题,在IRNet模型中加入了门控图神经网络(GGNN)用于编码数据库模式,将数据库模式中的全局信息融入到每个表名和列名的词嵌入中,使得模型在生成SQL中的数据库表名和列名时能够感知到更多的数据库模式的上下文关系,提升了模型生成SQL的准确匹配率。(2)针对英文NL2SQL问题,将数据库的值引入到IRNet模型中。通过计算自然语言查询和数据库值之间的注意力,从而对数据库值以及相应的自然语言查询进行匹配,将数据库值与列之间的关联关系引入模型,使其更准确地预测SQL中的列名,提升了模型生成SQL的准确匹配率。(3)针对中文NL2SQL问题,在IRNet的基础上,加入了预训练语言模型,使得IRNet可以处理中文自然语言生成SQL语句的问题。本文采用跨语言预训练模型来对数据库模式和自然语言查询进行编码,这样就在一定程度上解决了中文自然语言与英文数据库模式之间的映射问题。(4)针对中文自然语言查询数据库需求,在改进的深度自然语言生成SQL语句模型之上,开发了一个自然语言数据库查询系统。在该系统中,用户只要选择需要查询的数据库并输入相应的自然语言查询,系统会自动将自然语言查询转换为SQL语句并在相应的数据库上执行,并将结果反馈给用户。
其他文献
對甲骨文字形、字音、字義的探討,歷來諸家觀點甚多,內容繁雜,成果顯著,本文是關於甲骨文字考釋相關文章的提要,力求將搜集到的各家觀點按時間順序,並以提要的形式集成工具書性質的文本,以便學者查閱。本文正文涉及的字頭選自李宗焜編著的《甲骨文字編》,以方便检索字形。文章在正文之前將附上检索表,以方便讀者检索使用。文章主要分為兩部分:第一部分為緒論,主要介紹甲骨文字考釋研究的相關情況,包括研究現狀及成果、本
文章针对JJG (交通) 094—2009 《水泥混凝土拌合物含气量测定仪检定规程》在含气量参数校准、内插曲线、计量性能要求等方面存在的问题,提出不同意见及修改建议。
背景:急性胰腺炎(acute pancreatitis,AP)是一种常见的急腹症,病情复杂多变,程度轻重不等。3/4的患者为自限性的过程,表现为急性发作的轻度疼痛、自发的缓解。然而,剩下的1/4患者中,AP表现为危及生命的危重症,其特征是全身炎症反应综合征(systemic inflammatory response syndrome,SIRS),伴随多器官功能衰竭(multiple organ
目的:探讨颅咽管瘤不同手术入路的特点,复发因素对于手术全切率的影响以及颅咽管瘤的最佳治疗方案。方法:本研究中,笔者收集了吉林大学第一医院神经肿瘤外科2016.01.01-2020.12.31进行手术治疗,并且术后病理结果为颅咽管瘤的144例患者的资料。根据临床分型及肿瘤的生长方式分别采取了不同的手术入路进行手术治疗,对于手术中未能全切的患者,围手术期过后建议患者行立体定向放射治疗(伽马刀),并对以
背景:现代颅内动脉瘤的显微夹闭治疗日趋完善,动脉瘤夹也在神经外科临床实践中更新换代,新一代开窗型动脉瘤夹—Yasargil T-Bar夹,在治疗某些复杂型动脉瘤时体现了其独特的优势,同时也为神经外科医生进一步探讨、研究复杂动脉瘤提供了方向。目的:研究Yasargil T-Bar夹在颅内动脉瘤夹闭术中的实效性、外科技巧及临床经验。资料和方法:回顾性分析了吉林大学第一医院神经外科2018年1月至201
目的:探讨合并急性肾损伤(Acute kidney injury,AKI)的尸体供者(deceased donor,DD)供肾用于移植的临床应用效果。方法:回顾性分析吉林大学第一医院泌尿外二科2015年1月至2020年1月间收治的390例尸体供者和763例受者的临床资料,根据供者AKI发生情况,将受者分为AKI组和非AKI组;按照KDIGO诊断分级标准,将AKI组分为KDIGO 1级组和KDIGO
我国证券市场起步较晚,在对会计信息披露违规的监管方面还是存在着许多不足,给一些有不好动机的管理人员留下了信息披露违规的漏洞,上市公司的会计信息违规披露行为使中小股东的投资方向直接受到影响,经济利益受到损害,此外证券市场的秩序也会受到一定程度的扰乱,阻碍资本市场的正常发展。伴随着市场经济的发展和资本市场的繁荣,虽然我国相关部门也在不断加大监管力度,然而会计信息披露违规的现象依旧存在,上市公司会计信息
当前国内大多数城市公立医院都已实现了信息化建设,信息技术在医院管理中的广泛应用和现代医院管理科学的飞速发展,医院信息化管理的重要性已得到社会的普遍认同。医院内外环境均需要信息支持,数据互联互通信息共享。信息化和大数据互联互通在医院经济运行中的应用和管理尤为突现。财务管理为医院的重要工作,管理能力高低同医院良性发展直接相关。基于大数据技术,
背景:胼胝体是处于人类大脑中线位置的重要的白质结构,其功能为在人类进行活动时协调双侧大脑半球的运作,胼胝体的联合纤维在大脑半球中占据着重要的地位。胼胝体肿瘤在临床上最常见的是胶质瘤,其余类型的肿瘤有淋巴瘤、脂肪瘤等。胼胝体膝部及体部最常见于肿瘤生长,而临床上较少遇见胼胝体压部肿瘤。通常认为胼胝体功能重要,部位较深,手术难度较大,因此,对此处肿瘤行手术治疗被风险是大于收益的。然而伴随影像学技术的提高
推进课程改革几年来,我们结合实际,对临川传统教育文化的继承与发展进行了深入的研究,我们确定推进课改的总体思路是:按照"弘扬临川文化,谋划和谐发展,成就幸福人生"的教育发展理念,确定"一个中心"—以实施素质教育为中心;强调"两个统筹"——城区学校与农村学校的统筹发