面向工业生产的中文自然语言查询转SQL语句研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户:honeysword
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言查询转SQL语句(Nature Language to Structured Query Language,NL2SQL)任务就是在给定数据库的情况下,将自然语言问句描述转化成对应的SQL查询语句。本文着眼于信息化技能薄弱的工厂业务人员和管理人员数据分析效率低下的问题,构建了基于深度学习的中文工业NL2SQL模型。利用NL2SQL模型,工厂的业务人员和管理人员可以在不熟悉具体数据表结构信息和数据库配置信息等底层存储细节的情形下,仅需通过自然语言人机交互的方式获取想要的信息。本文的主要工作和贡献如下:(1)本文方法将中文工业NL2SQL任务分解为SQL语句结构预测和SQL语句关键信息预测两个部分。在SQL语句的结构预测中,本文使用BERT中文预训练模型按照工业自然语言问句查询目标特征对问句进行分类,并为每种类别的问句设计通用SQL模板来提高SQL语句结构预测的准确率。SQL语句的关键信息主要包括列名、列值、数据表名、运算符和连接符。从提高SQL语句预测结果的准确率出发,本文构建了对应的子任务模型来实现这些关键信息的预测。(2)中文工业NL2SQL任务在当前主流的Spider数据集任务的基础上,增加了SQL语句列值识别子任务。由于实际工业场景下的自然语言问句具有鲜明的时间特性,本文将列值识别分为时间实体识别以及时间实体以外的列值识别两个部分。首先,本文将问句中时间实体的识别看作一个命名实体识别任务,并构建BERT+Bi LSTM+CRF子任务模型识别问句中的时间实体。然后本文将时间实体以外的列值识别看作一个抽取式的预测任务,即预测列值在问句中的起始和末端的位置。同时根据中文自然语言问句中列名和列值的相对位置特征,创新性的引入了一种相对位置表征的自注意力机制来提高SQL语句列值识别的准确率。本文提出了一个面向工业生产的中文NL2SQL模型,研究工作具有一定的创新性,这体现在:提出了问句分类并为每种类型的问句设计对应SQL语句模板的方法提高SQL语句结构预测的准确率;引入了领域内的知识(元数据)提高列名预测的准确率;使用相对位置表征的自注意力机制以提高列值抽取预测的准确率。并在本文构建的铝冶炼生产数据集上进行实验验证,本文模型的SQL语句精确匹配率达到89.2%,基本满足实际应用的需要。
其他文献
目的 观察追风透骨胶囊对兔膝骨关节炎(knee osteoarthritis, KOA)模型关节软骨退变的干预作用,并基于Toll样受体4(Toll like receptor 4, TLR4)/髓细胞分化初级反应蛋白88(myeloid differentiation primary response protein 88, MyD88)/核因子kappa-B(nuclear factor ka
期刊
隐私保护数据挖掘(Privacy Preserving Data Mining,PPDM)研究旨在运用隐私保护技术,在数据挖掘的全过程中避免隐私的主动泄露或被动泄露,同时尽可能地避免隐私保护技术对数据挖掘结果造成的影响。匿名化是PPDM研究中的一个重要分支,匿名化技术利用匿名化算法转化原始数据集,让其满足特定的匿名化模型,以此达到数据安全发布的标准。为了避免匿名化算法对原始数据集造成过大的信息损失
学位
近年来,随着电动汽车市场占有率的不断上升和车联网技术的不断发展,人们构建了一些电动汽车充电解决方案,实现电动汽车充电预约、调度等功能,方便用户的同时有利于相关企业或部门合理分配电力资源,及时应对突发情况。然而,车联网中电动汽车隐私保护问题十分突出。在电动汽车进行充电预约、获取电力服务时,其身份信息、出行目的、行驶路线以及出行习惯等敏感信息可能存在泄露的风险,当这些信息未经授权被利用时,用户隐私可能
学位
Co-60棒式放射源广泛应用于石化行业分布式控制系统的料位监测。国外棒式放射源技术水平高,但价格昂贵、维护费用高;国产同类产品不但制作价格高而且还存在的一定程度的技术问题。针对棒式放射源制作及应用的现状,提出了采用国产多点Cs-137放射源模拟传统的Co-60棒式放射源功能,对其进行替代的技术方案,并在中国石油庆阳石化公司重整装置得以成功应用。经多点Cs-137放射源改造后的料位监测系统,各项指标
期刊
信息抽取是自然语言处理中的一个重要研究方向,以其广阔的应用前景被许多的研究人员所关注。一方面信息抽取技术可以提高用户筛选和接受信息的效率,另一方面基于信息抽取构建的知识库可以为下游任务提供外部知识支撑,从而提升任务性能。信息抽取目的是抽取出文本中的实体、关系、事件等信息,并将其形成结构化的信息输出。虽然研究者们已经在信息抽取领域展开了许多研究,但是该领域仍然存在一些复杂的情况亟待解决,具体包括:在
学位
新型冠状病毒肺炎疫情肆虐全球的大背景下,各国政府和民众对远程医疗服务的需求急剧增加,医疗机构通过提供远程健康监测、在线诊疗等服务,最大限度地减少各类人员接触病毒的风险,同时降低医疗成本,提升医疗质量。然而,远程医疗服务处在开放式网络中,容易遭受各类网络攻击,这将对敏感的医疗数据造成严重的安全威胁和隐私泄露问题。此外,远程医疗服务往往要求医疗机构之间数据互联互通,但当前存在“信息孤岛”等问题,影响机
学位
随着计算机技术的高速发展,软件系统的规模不断扩张,面临的安全问题也日益复杂严峻。因此,对软件的安全审查与分析变得至关重要。由于软件厂商通常都不会开放源代码,二进制程序分析逐渐成为软件安全研究的热门领域,在评估软件安全威胁、提高软件安全性等方面有着极其重要的应用价值。由于缺少高级语义信息,二进制程序的分析是困难且复杂的。二进制程序分析要求不仅能够在二进制层面提供较为精确的分析结果,并且可以尽量还原高
学位
采用复合改性剂制备高固含量复合型冷拌冷铺乳化沥青,通过添加减水剂改善混合料的路用性能,研究高固含量复合型冷拌冷铺乳化沥青混合料的级配设计,并通过试验对其路用性能进行验证。结果表明,高固含量复合型冷拌冷铺乳化沥青混合料的马歇尔稳定度、水稳定性能、高温性能和低温性能都能达到热拌沥青混合料的技术要求,满足沥青路面使用要求。
期刊
随着《义务教育语文课程标准(2022年版)》的颁布,培养学生的思辨能力成为义务教育阶段语文教学的重要内容。同时,小学高年段阅读教学中思辨能力培养的具体手段、方法、路径等问题亟待解决。阅读策略教学或可以成为一线教师的选择。实践证明,“联结—推测—转化”三种策略形成的策略链可以较好地助力学生思辨能力的发展。此外,学生可以运用策略链学习统编教材中部分篇目和单元,在自主、合作、探究的阅读过程中培养思辨能力
期刊
目的 研究冷拌冷铺乳化沥青混凝土的开放交通强度,为道路标准的制定提供参考。方法 通过室内试验,探究冷拌冷铺乳化沥青混凝土在不同养生时间的劈裂强度、高温稳定性、水稳定性和低温抗裂性,依据普通热拌沥青混合料和改性沥青混合料的规范要求,提出冷拌冷铺乳化沥青混凝土开放交通强度。结果 当以热拌普通沥青混合料为标准时,初定开放交通强度为0.58 MPa;以热拌改性沥青混合料的相关要求为判据时,初定开放交通强度
期刊