一种基于深度学习的中文自然语言查询生成SQL语句技术研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:zhangchenglin427
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理是近年来人工智能领域中发展速度最快的研究方向之一。通过使用自然语言与数据库进行人机交互查询数据,既能节省用户学习专业知识的成本,也能提升查询数据的效率。因此,自然语言查询生成SQL语句,简称NL2SQL任务的自然语言处理技术,尤其是中文NL2SQL具有重要的研究价值。如何从语法和语义层面准确地理解自然语言,以及如何消除自然语言查询,数据库中的数据表结构及内容和SQL语句三者之间在表达和结构上的差距,是NL2SQL任务中面临的主要挑战。现有针对NL2SQL任务的模型都主要面向英文文本,并且无法解决中文文本数据中存在的列名复用、自然语言查询中的描述和数据库存储的数据表述不一致等问题。本文以中文NL2SQL任务为研究对象,针对单表和其扩展的多表查询场景,从提升生成SQL语句的准确率角度出发,构建了多个深度学习模型来实现自然语言查询到SQL语句的转化。本文的主要工作与贡献包括:(1)提出了结合预训练模型和深度学习分类模型的面向中文NL2SQL任务的完整流程和方法。该方法充分利用最新的预训练模型在处理文本时的特征表达能力,并通过微调(fine-tuning)的方式在各子任务上构建相应的深度学习分类模型。(2)在单表查询场景下,提出了通用分类模型与条件值获取模型来生成SQL语句。通用分类模型在对SQL语句中的列名预测时,改善了列名复用的问题;条件值获取模型在对SQL语句中的条件值预测时,区分了文本和数值类型的列值,改善了自然语言查询的描述与数据库中存储的数据表述不一致问题。通过对比实验证明该方法从列名、条件值预测等多方面提升了SQL语句生成的准确率。(3)在多表查询场景下,提出了将中文NL2SQL任务分解为SQL子句生成与JOIN路径生成两个子任务。在SQL子句生成中,提出了两种解决方案,两种方案都借鉴了单表查询场景下的思路,是对单表查询场景模型适用场景的一个扩展;在JOIN路径生成中,提出了将其建模为斯坦纳树的生成问题,并采用了一种全局最优化的算法来解决该问题。通过实验证明该方法能有效地从单表查询场景扩展到多表查询场景,完成多表SQL语句的生成。
其他文献
市场在本周出现了大幅的下跌,特别是在11月13日的日线时间节点如期出现高点之后,本周的跌幅实际是比较大的。在四大指数当中,跌幅最大的当数前期涨幅最高的中小板指数了,持续
景顺长城:真成长迎来价值回归机会8月以来,A股由一枝独秀变身百花齐放。景顺长城环保优势基金经理杨锐文认为,去杠杆等监管政策对股市的压力最大阶段已经过去了,近期重组、再
目的:1.探讨超声内镜对消化道隆起型病变诊断价值,重点分析间质瘤、平滑肌瘤、脂肪瘤、囊肿、息肉、异位胰腺、血管瘤等疾病的超声内镜特点。2.以病理诊断为标准评估超声内镜
〔摘要〕构建以用户为中心的信息推送服务是泛在信息环境的发展趋势,在充分掌握泛在信息推送服务的内涵与研究背景后,探讨了情境感知技术和数据挖掘技术在泛在信息推送服务领域的作用机制,在此基础之上构建了一个基于情境感知和数据挖掘的泛在信息推送服务体系,重点阐述了服务体系的组成与各部件之间的关系,同时还介绍了泛在信息推送服务关键技术、面临的挑战和实施保障。研究结果能为泛在信息推送服务的研究与实践提供一定参考
双线偏振多普勒天气雷达可以比常规天气雷达从云雨粒子中获取更多的雷达回波参量,可以明显提高降水强度的估测精度,改善雷达测量单点流域的降水和降水总量的效果,提高雷达对
目的:通过分析Catphan模体CTP486模块的四维CT(4D-CT)图像,研究呼吸时相和模体位置对4D-CT图像均匀性的影响。方法:使用西门子Sensation Open CT模拟机和瓦里安RPM系统,获取Catphan 504模体CTP486模块的4DCT图像。对3种模体位置情形进行研究。情形A:模体悬空放置;情形T:模体下有一个碳纤维CT平板床;情形B+T:模体下有一个碳纤维固定底板和一个
随着我国信息化技术的不断升温,各行各业的自动化操作手段也在随势而新,会计电算化已经不是新话题,发票作为经济活动中的一个重要依据,其信息的收集、存储已然成为了一项“重
研究背景与目的:本课题通过对比腹腔镜下结直肠癌经自然腔道取标本手术(Natural Orifice Specimen Extraction Surgery,NOSES)与传统腹腔镜下结直肠癌根治术的近期疗效,阐明NOSES的适应症与禁忌症、手术分类与手术方式的选择、手术设备与仪器要求,剖析NOSES的独特优势、面临的问题与争议,以期为NOSES的推广做出更多的临床贡献。材料与方法:回顾性收集201
<正>一、课题的提出(一)研究背景:1、进一步深化素质教育的要求。我国新一轮基础教育课程改革的一个显著变化,是整合教学资源,遵循"以人为本"宗旨,大力推进素质教育,在课堂教
会议
目的:探讨对于宫颈残端鳞癌及腺癌的不良预后产生一定影响的因素,为本病的临床诊疗及后期随访提供一定参考。方法:回顾性分析2005年1月1日至2016年12月1日于新疆医科大学附属肿瘤医院收治的45例宫颈残端鳞癌及腺癌患者的临床资料。结果:45例患者中位发病年龄52岁;子宫次全切除原因以子宫肌瘤为主;距宫颈次全切除的平均时间为10.76年;临床表现以为阴道不规则流血居多。IA-IIA期15例(33.3