SQL查询语句的自动生成技术研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:ee320
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着IT技术的不断发展,医疗、教育、金融等各个行业都在使用数据库进行数据存储。软件工程师在软件开发过程中会频繁地使用SQL语句用于数据的增删改查,业务人员也经常使用SQL语句进行报表与在线分析(OLAP)的定制,从数据库中获取所需信息。但是,SQL语言本质上是一种编程语言,使用者需要具有一定的数据库和SQL语言相关专业知识,并且需要在熟悉数据库模式的前提下,才能熟练进行SQL语句的编写。如何降低SQL语言的学习成本?如何更快更好地生成SQL查询语句?如何使用更自然的方式生成SQL语言?针对这些问题,本文研究面向最终用户的SQL查询语句的自动生成技术,提出了从交互式自然语言接口生成SQL查询语句(INL2SQL)和从自然语言生成SQL查询语句(NL2SQL)的技术与方法。本文主要的贡献和创新点包括:1)研究提出了一种基于映射的INL2SQL生成方法。本方法使用依赖解析树生成、解析树节点映射、解析树优化重构、查询树翻译模块对用户输入的查询进行意图的解析,并将其映射到SQL查询语句上。通过交互式对话器和用户接口模块对意图的解析与映射进行补充和重构。本文采用Classicmodels和MAS数据集进行了实验,实验表明,模型在有交互的情况下在简单、中等、困难的场景下的表现为100%、80%、35%和100%、93%、71%的准确率,有效解决了意图缺失和歧义等问题。2)研究提出了一种基于深度强化学习的NL2SQL生成方法。本方法采用由编码器和解码器构成,结合自注意力机制的神经网络模型结构,使用强化学习将SQL语句的执行结果用于神经网络模型的强化。它将网络模型的学习目标转换为策略的优化问题,并对给出了模型的状态和动作的定义。为了解决SQL查询语句中的过滤条件的顺序问题和隐式列名问题,本方法提出了非确定性预言和ANYCOL状态的解决办法。本文进行了一系列实验,实验表明,本文方法在WikiSQL数据集上表现一流,在ATIS数据集的验证集上的数据库执行准确率为89.2%,在Spider数据集的验证集和测试集上表现超过同类方法,其逻辑形式准确率和数据库执行准确率分别达到23.2%和24.1%。3)研究提出了一种基于多任务学习的NL2SQL生成方法。为了进一步提高NL2SQL生成的准确率以及解决中文自然语言生成SQL查询语句的问题,本文提出了一种基于多任务学习的NL2SQL生成的模型与方法。本方法使用TCR(Task-Content-Result)模板把多项学习任务进行统一,再使用由编码器和解码器构成的多任务学习网络模型进行同时学习,采用对偶协同注意力机制实现任务间的迁移学习。在实验过程中,本文采用了完全联合学习、反递进学习等不同的优化策略进行训练。本方法在WikiSQL数据集上的逻辑形式准确率和数据库执行准确率达到78.7%和86.1%的最高水平,验证了方法的有效性。在引入更多的任务进行学习时,对各项任务指标进行加和得到607.7的总分,表明了本方法能够有效解决中文自然语言生成SQL查询语句问题,同时还具有良好的通用性和可拓展性。
其他文献
2010年3月14日,泰国曼谷,支持前总理他信的泰国反政府组织“红衫军”成员在曼谷市中心集会,其领导人于当地时间14日12时10分向阿披实领导的泰国政府发出在24小时内解散国会下议院的最后通牒。  据此间媒体报道,这次“红衫军”的“百万人游行”预计持续至少7天。美联社一名记者在曼谷以北旺内的一条高速公路上看见,一支长7公里的“红衫军”队伍正接受检查,导致这条路出现长达50公里的交通堵塞。  这次将
摘要:《微电子工艺及器件仿真》是在创新人才培养质量的背景下,为增强微电子专业本科生的创新精神和实践能力而开设的一门专业课,课程的知识结构、培养目标与行业需求紧密对接。针对课程综合性、系统性和应用性强、学生不易掌握的特点,采用精讲多练的授课模式:在讲授环节,教师对仿真文件中的仿真规则、关键语句、物理模型及需要采用的处理方法进行重点阐述,同时使用案例式教学法,便于学生掌握仿真要领;在练习环节,借助于翻
采访陶马什·费莱基(下称费莱基)已经是11月15日晚9点之后,就在一个小时之前,他还在参观深圳华为技术有限公司的路上。而此前的一整天,行程满满的费莱基已在高交会的多个场合
针对“碎片化治理”未能从根本上解决高校大学生考试违纪现象这一问题,基于问卷调查,从学生自身行为、监考教师行为、教务部门行为、任课教师行为方面,对大学生考试状况展开
从利用两点经纬度坐标求其距离和使用已知的距离位置关系反推某点经纬度坐标两个方面,对比正球体两点距算法,推导了椭球体两点距算法。通过计算椭球扁率,将经纬度坐标转换为
丝状真菌是一种新的极具希望的真核生物表达系统,它不仅具有微生物生长快速、操作简便等优点,还具有真核生物典型的翻译后修饰作用及强大的蛋白(主要为酶类)分泌能力,近年来,
目的:利用网络药理学技术、中压纯化系统技术、HepG2胰岛素抵抗细胞模型,研究桑椹防治DM的有效成分及活性物质对糖、脂代谢重要信号通路PI3K-Akt-mTor中关键蛋白表达的调节作用。方法:1.检索数据库获得桑椹活性成分、相关靶基因,进行疾病映射,利用Cystoscope3.2.1软件构建“化合物-靶点-疾病”网络图。进行Metascape通路富集分析。2.利用中压制备及配套纯化系统对桑椹醇提物
由江苏省电力试验研究院有限公司和徐州供电公司、徐州苏源信息技术公司共同完成的“江苏省电力公司科技管理信息系统”日前通过了江苏省科技厅组织的科技成果鉴定。