【摘 要】
:
大数据的兴起促进了数据规模的突飞猛进。数据库中往往存储了大量高价值的数据,以往用户想要查询数据库内容时,需要编写结构化查询语言SQL,再与数据库交互,这给非专业领域的普通用户带来了不便。而且对于一些复杂的查询条件,手工编写SQL时容易出错。如何通过自然语言自由地查询数据库成为新的研究热点。据此,本文提出了基于显式关系编码和抽象语法树解码的Text2SQL系统,可以端到端的将自然语言转换为SQL序列
论文部分内容阅读
大数据的兴起促进了数据规模的突飞猛进。数据库中往往存储了大量高价值的数据,以往用户想要查询数据库内容时,需要编写结构化查询语言SQL,再与数据库交互,这给非专业领域的普通用户带来了不便。而且对于一些复杂的查询条件,手工编写SQL时容易出错。如何通过自然语言自由地查询数据库成为新的研究热点。据此,本文提出了基于显式关系编码和抽象语法树解码的Text2SQL系统,可以端到端的将自然语言转换为SQL序列。本文的主要工作有:(1)提出了Relational Tree SQL模型,可以有效实现跨领域、跨表的复杂SQL查询。模型编码器部分引入了关系敏感型注意力机制,解决自然语言表述和数据库模式间的链接问题。解码器部分通过预定义的SQL语法树约束解码时的搜索范围,既节省了时间开销又提升了准确率。(2)封装实现了Text2SQL系统。由于SQL语法的有限性和模型强大的语义泛化能力,本系统可以方便地迁移到其他领域,显著缓解数据标注缺乏问题。通过端到端的设计,本文的Text2SQL系统可以快速整合到已有人机交互系统中。(3)在权威的Text2SQL数据集Spider与WikiSQL上进行了评测和消融实验分析。截至2020年10月初,本系统在Spider上的公开测试结果超过了Allen实验室、新加坡国立大学和韩国即时通信公司等机构的解决方案取得全球第2名,证明了本系统的有效性。
其他文献
智能铁路监控系统的图像质量决定了后续智能算法的准确率。本文课题以某公司铁路项目为例介绍了铁路线扫系统的架构及现场安装,详细说明线阵相机的器件选型并完成硬件电路总框图。针对GL0402的成像效果有明显竖条纹现象,采用均匀光筒搭建实验环境进行采集大量图像样本并用均值滤波算法优化,再得出传感器感光响应呈线性。比较两点法和分段线性法优劣,提出两点法固定模式噪声(FPN,Fixed Pattern Nois
“十三五”规划期间,我国的工业化与信息化融合进入了快速发展轨道,伴随着大批中小企业纷纷加快了信息化的步伐。中小企业的生产工艺灵活多变,随着规模的发展业务流程变更频繁,并且不同企业之间具有很大的差异性,为MES系统的开发带来了新的挑战。本论文首先通过分析MES系统的国内外研究现状,提出了本文的研究目标,内容与拟采用的研究方案。然后对MES生产管理子系统的功能性需求和非功能性需求进行分析。在系统设计部
当今互联网业务迭代更新迅速,传统测试方法已无法满足不断变更的测试需求。流量回放作为一个自动化产生真实流量、回放测试用例的方法,能够适应不断变更的测试需求,对测试行业的发展具有重大意义。其中,Http协议作为应用业务的常用网络传输协议,在测试任务中占据很大比例。本文对现有的流量镜像技术和应用测试工具进行研究,学习并分析了相关技术理论,从测试人员的用户角度出发,分析测试人员对流量回放平台的功能需求,设
随着移动互联网技术的普及,传统的办公模式也迎来革新,即时通讯办公软件对于企业而言越加重要。各大软件和互联网厂商陆续推出集办公和通讯为一体的协作软件,然而大部分公司却并未挖掘出企业即时通讯办公软件的潜力,仅仅将其作为内部通讯工具使用。本文选取字节跳动的飞书作为研究和开发对象,为了满足作者所在公司内部各团队对于数据交互、数据连通和自动化办公的需求,同时为了挖掘飞书定制开发的最大潜力,本文设计并研发了一
面部信息是人类情感表达的主要方式,在过去30年中,计算机视觉领域的学者对人脸信息处理相关的课题开展了大量研究,并取得了丰硕的成果。面部表情合成即通过图像处理算法使得输入人脸具有特定的面部表情,是目前人脸分析研究中的热点,并受到了广泛的关注,其在人机交互、电影特效、虚拟现实、动画人物制作等领域具有广阔的应用场景和重要价值。尽管已经取得了很大进展,目前的真实感面部表情图像合成方法仍然存在一定的局限,尤
随着移动互联网广告市场规模迅速扩大,精准营销成为广告投放服务的研究重点,现有的广告投放系统,不能很好地适应网约车场景,针对这一现象,本文研究符合网约车特点的终端广告投放系统。本系统使用基于逻辑回归的CTR预测模型,对在线用户进行展示广告推荐,使用用户历史行为数据周期迭代地训练,降序输出广告集。为了完整地实现展示广告从配置到终端展示的全流程,本系统使用分层架构,基于LNMP(Linux+Nginx+
现如今人工智能伴随着机器学习和深度学习等相关技术的快速发展,已经在日常生活、工作中处处发挥着便利我们的作用,但是智能机器进一步认知人类世界离不开对知识的理解。知识图谱以结构化的形式存储着数据知识,用于描述客观世界中的抽象概念、命名实体以及相互关联关系。知识图谱构建质量依赖于实体关系抽取的性能。目前基于深度学习的实体关系抽取模型依赖于大量的标注数据,而真实应用落地场景中少样本类别所占比例较大,数据长
极细粒度实体分类任务旨在为文本中的命名实体做类别划分,是信息抽取中的关键任务,更细的类别划分能为信息抽取提供更丰富的语义内涵,该技术也是信息检索、问答系统、知识图谱、文本挖掘等下游任务的重要支撑。作为关键任务,极细粒度实体分类需要消除语义上的歧义,根据实体(专有名词)的上下文自动、快速地发掘合理且准确实体细粒度类别含义。极细粒度实体分类由于类别多(超过一千类),标注极为困难因而鲜有标注数据,只能通
工业数据是工业企业的重要资产,有效利用工厂的生产、管理和运营数据可以帮助企业更好地实现精细化管理,但目前流程工业企业信息系统种类繁多、数据类型多种多样,多元数据管理不规范、数据分析门槛高,无法真正实现对数据价值的挖掘。本文以对象化建模技术、数据融合加工技术、大数据分析与挖掘技术为关键技术,结合流程工业企业数据特点以及行业知识,采用对象化建模技术对流程工业不同类型数据进行对象化编排,通过数据融合加工
在自然语言处理中,命名实体识别是许多任务的上游,它为诸如信息检索、智能对话和阅读理解等任务打下了根基。虽然近年来深度学习模型在实体识别这个任务上的进展表明,该任务似乎已经不是一个难点,但是由于深度学习模型对大规模标注数据的依赖导致了命名实体识别任务也通常需要海量数据才能有好的效果。这种缺陷在许多场景下会成为一个致命的缺点,比如在医疗领域,由于隐私保护的原因,我们很难获取到大规模的标注数据。本文针对