聊天式数据查询的技术方案探讨

来源 :科学导报·学术 | 被引量 : 0次 | 上传用户:ewt43grfdger
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:人工智能领域近年发展十分迅猛,其中自然语言处理(NLP)领域从2016年起进入高速发展期,以BERT为代表的各种新模型层出不穷,解决了文本数据分析和信息提取的问题。其中有一个子领域,即NL2SQL领域,是解决如何用自然语言问句进行数据库查询的问题。具体方案是通过语义解析,将自然语言问句翻译成SQL,再送到数据库中进行查询,大大降低了数据查询的难度,提升了交互友好度和查询效率。本文探讨具体的技术解决方案。
  正文
  NL2SQL领域目前的数据集英文以WikiSQL和Spider为主,中文有追一科技提供的竞赛数据集。WikiSQL数据集支持单表、单列、多Where子句查询,现有模型可以较好地支持。而耶鲁大学提供的Spider数据集要求支持Group By、Order By、Having,还需要Join不同表,这更贴近于真实场景,也带来了更大的难度。追一科技的竞赛数据集的难度介于两者之间,要求支持多列查询,支持多Where子句间不同操作符操作。本文以追一科技数据集的难度为准,探讨解决方案。
  1.主流模型
  目前業内的三大技术解决方案依次是SQLnet,SQLova和X-SQL,其中X-SQL在WikiSQL数据集上测试效果最好,但仍然满足不了追一科技数据集的要求。我们主要参考后两个模型,提出我们的解决方案。
  2.方案思路
  解决此问题有两大思路,增强学习和解耦任务。增强学习是端到端的解决方案,比较先进,但实际应用尚不成熟,达不到准确率的要求。因此解耦任务的思路成为首选。解耦的思路是将任务拆解为8个子任务,分别是
  Select-Number:选择几列
  Select-Column:选择哪一列
  Select-Aggregation:使用什么聚合函数
  Where-Number:有几个条件
  Where-Column:筛选条件是针对哪几列
  Where-Operator:各个条件的操作符
  Where-Value:各个条件的条件值
  Where-Operator:各个条件之间的关系。
  为了将整体准确度提升到80%以上,需要8个子任务的平均准确度达到97.5%,这对方案提出了非常高的要求。
  整体解决方案分为三部分:语义解析模块、执行引导模块和SQL增强模块。以下分别加以说明。
  3.语义解析模块
  语义解析模块是整个解决方案最重要的部分,共分为三个层次:编码层、语义增强层和输出层。
  编码层采用2019年7月由Facebook公司推出的RoBERTa作为基础预训练模型。和2018年10月谷歌公司推出的BERT相比,此模型在CoLA和SST-2两项任务中分别领先16个百分点和3个百分点。而这两个任务是评判文本语义解析能力的重要指标。RoBERTa已经有支持中文的版本。
  我们也考虑了其它的可能性,例如MT-DNN,XLnet,ERNIE2.0和DistilBERT,经过对可行性的分析和对性能的比较,最终选用RoBERTa。
  语义增强层的思路是将问题的文本表示和组成数据列的token的文本表示进行融合,将融合后的结果结合注意力机制,然后进行数学相加,最后再加上问题的文本表示,以得到数据列的文本表示。
  其中将问题与token进行融合的时候,加入两个多维训练参数(m*d),以构成神经网络层。那么数学上,两个多维表示如何变成一个注意力参数的呢?问题和token都是((m*d)*(d*1)),点积后成为(m*1)向量,再次转制和点积后成为(1*1)向量,即一个注意力参数。
  最后再次加上问题的文本表示,是为了增强问题表示的比重,将问题和toke比重由1:1改为2:1,以增强最终效果。此处问题权重设为0.5。
  到此已经增加了一层神经网络层。在输出层为所有的子任务还要再增加一层神经网络层,以Where Number子任务为例进行说明。这个子任务是二分类模型,可选值为1或2,而是否有Where子句由empty column指定。此子任务增加一层MLP层。其余子任务由不同的公式加上神经网络参数计算。所有输出层的损失函数都是交叉熵损失函数。
  这些子任务并不是每个独立进行训练,在每一个batch size里,所有子任务按顺序依次正向传播,然后计算损失函数,按照梯度下降原理,进行整体反向传播,更新参数,使整体损失函数值最低。
  4.执行引导模块
  执行引导模块参考arxiv.org/abs/1807.03100直接进行增强,可有效提升执行准确率2%左右。
  SQL增强模块
  SQL增强模块在把生成的SQL送到数据库之前,进行调整如下:
  ●对于表中的类别型列数据,需要将生成的列值与数据库里的此列的类别值进行相似度匹配,以替换成正确值。例如解析后的Where Value为“黄蜂”,而数据库里的数据为“大黄蜂”,则修改为“大黄蜂”。
  ●如果两个Where子句的列名相同,要检查两个Where Value是否相同,相同的话将其中一个替换为相似度最高的另一个值。
  ●如果Where Value里包含中文“和”字,则拆成两个值
  ●如果问题中有中文“或”字,或者两个Where子句的列名相同,则两个Where子句的关系为“or”,其它情况均为“and”。
  5.总结
  以上是整体设计及方案的关键点。综合以上方案,可以有效提升SQL转化的准确度,取得较好效果。
  参考文献:
  [1] Matthew E Peters,Mark Neumann,Mohit Iyyer,Matt Gardner,Christopher Clark,Kenton Lee,and Luke Zettlemoyer.2018.Deep contextualized word representations.arXiv preprint arXiv:1802.05365.
  [2] Jason Phang,Thibault Fevry,and Samuel R Bowman.2018. Sentence encoders on stilts:Supplementary training on intermediate labeled-data tasks.arXiv preprint arXiv:1811.01088.
  [3] Alec Radford,Karthik Narasimhan,Tim Salimans,and Ilya Sutskever.2018.Improving language understanding by generative pre-training.
  [4] Pranav Rajpurkar,Jian Zhang,Konstantin Lopyrev,and Percy Liang.2016.Squad:100,000+ questions for machine comprehension of text.pages 2383–2392.
  [5] Aarne Talman and Stergios Chatzikyriakidis.2018.Testing the generalization power of neural network models across nli benchmarks.arXiv preprint arXiv:1810.09774.
  (作者单位:联想集团)
其他文献
摘要:最近几年,国家相关政策陆续落地,装配建设业普遍蓬勃发展,业界的春天来了。但是组装建筑的主流系统之一,组装型钢结构似乎与发展状况截然不同。一方面,组装型钢结构在公共建筑中广泛使用,接受度高。相反,组装型钢结构很少应用于巨大的住宅领域,因此发展情况不理想。在此基础上,对绿色组装型钢结构建筑系统及实践分析进行了如下讨论。  关键词:装配式;钢结构;建筑产业;实践分析  中国分类号:TU391
期刊
摘 要:伴随着新课程体制改革不断深入与发展,在小学课堂教育教学当中,德育教育已经逐渐渗透到教材当中,这就让数学教学变成了更具有人文性与思想性的教学材料,这样就使得学生在学习教学内容的同时,也培养了学生自身修养与品格修养,德育教育是素质教育的一个重要目标,为了培养孩子们优秀的品质,作为小学的数学教师,我们将不断摸索与研究德育教育在小学数学教学当中的运用,这样就使得学生在学习科学文化知识的同时,也受到
期刊
摘 要:在现代社会的发展中,人们对于心理健康也是越来越重视,并且随着国家新教育模式的发展相关改革,同样要求老师在德育教学中融入心理健康教育,在学校学习中开展学生心理教育。让学生在他们的印象中能够对心理健康正确的认识和了解,初中学生已经具备有事物基本辨别能力,所以在学生初中阶段课程中融入心理教育是非常有必要性。可以增加学生心理健康认识,初中生是作为未来的希望,加强他们的心理健康的教育,是十分的有必要
期刊
摘要:以爱玉的叶片为材料,对CTAB分离总DNA的方法进行了改进,即在提取液中加入β-巯基乙醇、不同的PVP.结果表明:选用爱玉的嫩叶为材料及提取液中加入2%PVP,可有效地去除杂质,防止材料褐化,获得的DNA样品OD260nm/OD280nm比值为1.8左右,质量好且产率较高,电泳检测表明提取的DNA的完整性较好,能基本满足后续的PCR分析及限制性内切酶酶切等分子操作的要求.  关键词:爱玉;D
期刊
摘要:油液的污染严重题响系统的正常工作和使元件过度的磨损,甚至造成装备发生故障。现阶段人们对油液污染的检测高度重视起来,如何准确、高效的检测出油液中存在的危害颗粒?是我们不容轻视的一个话题。油液污染检测项目有多种,其中机械杂质是最早的油液中危害颗粒的检测手段,它人为因素多,数据准确度差,且耗时耗力;而污染度检测、铁谱分析,光请分析,磨粒分析这些新技术,新方法在油液检测中脱颖而出,已成为我们目前对油
期刊
摘要:目前钢结构在工业厂房,尤其是大跨度工业厂房中的应用越来越广泛,但其施工工艺与传统结构体系的施工有很大不同,需要根据工程实际情况,制定合理可行的施工方法,并在施工中予以严格控制。鉴于此,文章结合笔者多年工作经验,对分析大跨度工业厂房钢结构的安装施工提出了一些建议,仅供参考。  关键词:大跨度工业厂房;钢结构;安装施工  中图分类号:TU758 文献标识码:A  引言  通过对吊装方法的研究
期刊
摘 要:课堂是教师开展教学活动的主要场所,同时也是学生学习、成长和发展的重要舞台,课堂教学本身是一个师生、生生之间的沟通和互动的过程,这样才能够更利于知识、信息、问题的“上传下达”,激发学生学习兴趣,优化学生的学习过程和教师的教学过程。所以,构建高中地理互动式课堂势在必行。本文将从营造互动课堂气氛、创设互动问题情境和开展小组合作活动三个方面出发展开研究和论述,试图说明构建高中地理互动式课堂的有效方
期刊
摘要:现阶段能源的消耗逐渐增多,资源需求在不断变得紧迫,各领域发展受到诸多的影响,成为受到广泛关注的问题,这也是能源开发中非常重要的领域,采油节能技术现阶段的实际需求也是非常明显的,如何将采油节能技术运用到生产中,成为石油行业的重点问题。随着技术的不断更新,采油节能技术的实际开发以及应用受到诸多企业的重视,促进采油行业的持续发展中以及效益提升,并顺应了行业的整体趋势。  关键词:油田采油技术;节能
期刊
摘 要:时光流逝,随着年龄的增长,初中学生的心理也在不断地变化着,初中生是一个由少年时期向青春时期过渡的阶段,他们的心理特点处于半成熟状态,即一半成熟,一半幼稚。这种复杂的心理表现在既充满着独立性,又充满着依赖性,既充满着自觉性,又充满着冲动性。为了很好的开展教学与培养工作,我从以下几个方面来了解和掌握他们的心理变化和特点。  关键词:心理健康;问题 ;策略;保障  青春期是一个特殊的时期,这个时
期刊
摘 要:随着教育体制改革的不断深化,课堂教学模式已由传统的“以教师为中心”转向了“以学生为中心”,教师的职责也从课本知识的单一灌输转变为了教授学生学习技能、培养学生学习能力与核心素养。在高中数学教学中创设问题情境,可以引发学生认知上的冲突,进而使学生在兴趣的驱动下,自觉投入到对数学知识的研究与探索活动中,从而有利于获取理想中的教学预期。下面,本文对高中数学教学中问题情境的创设方法展开论述,以供参考
期刊