基于NL2SQL的智能报表系统的设计与实现

来源 :中南财经政法大学 | 被引量 : 0次 | 上传用户:ForeverCG1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据环境下,每个行业都高度重视从海量用户数据中挖掘其背后的隐藏信息和价值,然而这些信息存在数据本身的隐蔽性,另外业务人员无法给数据人员清晰地表达自己的意图,导致难以从结构化数据中最大限度的获取到用户的喜好特征。因此直接通过自然语言在数据库查询数据,搭建数据库的自然语言交互平台也受到越来越多企业和研究学者的关注。NL2SQL是自然语言查询数据背后的核心技术,而NL2SQL中自然语言和SQL语言本身就存在语法结构差异,甚至自然语言中还存在同义词等复杂场景查询,因此如何消除自然语言和SQL语言上语法的结构关系,如何解释自然语言、SQL和数据表之间的关系,准确地将自然语言转化为计算机可以执行的规范化SQL表示,是当前NL2SQL任务中面临的重大挑战。本文以此为背景,针对更加困难的中文NL2SQL任务展开了研究,目前现有的NL2SQL研究大多就针对简单的英文数据集,并且其模型架构不完全适配于中文自然语言查询,因此本文在单表查询场景下提出了基于BERT的中文NL2SQL模型,以提高模型SQL生成准确率和执行准确率为目标,针对数据和模型做了大量研究工作后,最终实现了中文自然语言转化为SQL语句的高准确率,并将其应用于智能报表系统中,本文的具体研究内容如下:1)在单表查询场景下,本文对其SQL语法结构进行分析,基于插槽填充的方式设计NL2SQL模型,从输入序列中定位条件值,将SQL生成任务转化为分类任务,并采用多任务多目标融合模型,增强子任务之间的关联性。在模型中加入多列类型特征来预测多个条件,避免多条件时的列名复用,并加入数据内容进行文本相似度计算,改善了存在相同单词的同义词问题,提高了模型准确率。2)本文使用中文数据集TableQA作为数据集,根据模型训练和预测的结果,针对bad case进行分析,对模型进行调优并改善了数据同义词情况。最后综合对比其它模型,在多个准确率指标上都有良好的性能表现。3)本文基于NL2SQL模型,设计并实现了SQL查询场景下的智能报表系统,系统主要功能包括用户输入自然语言查询问题,由系统模型生成问题的SQL语句,最后以报表的形式返回结果。本文旨在将自然语言处理融入数据库领域中,减少非技术人员学习数据库语言的时间成本,并期望在大数据环境下能够通过智能报表系统快速分析数据中的价值信息。总体上达到企业高效获取价值效益,业务人员减轻工作压力,用户也能更快的享受特性服务的局面。
其他文献
近年来,随着深度学习的飞速发展,视觉问答领域已经取得了重大进步。视觉问答作为计算机视觉与自然语言处理的交叉领域,其基本任务是观察图像并在此基础上回答文本问题。现有的方法大多是通过预训练的自上而下的注意力机制对图像特征进行表示,然后使用单层门控循环单元(GRU)对文本问题进行编码,最后联合这两种特征得到预测答案。目前,虽然视觉问答系统在准确率上体现出了强大的性能,但无法提供模型决策的过程以及理由,这
学位
数据市场是目前研究的热点话题,在提出数据要素化的政策之后,国内各类数据交易平台迅速发展起来,针对数据市场的研究也越来越多。在2021年,北京成立了国际大数据交易所,同年,上海大数据交易所也宣布成立,这更加激发了对数据交易市场的研究热潮,同时也标志着我国数据要素市场的正处于蓬勃发展阶段。在数据交易市场的相关领域中,对数据定价体系的研究更是重中之重。现有的研究大多是从传统商品的定价方案进行迁移,但是数
学位
在计算机相关技术飞速发展的时代下,计算机技术辅助教学成为热门趋势。在老师的教学和学生的学习过程中,收集习题都是一个必可不可少的工作。然而,手工摘抄习题非常费时费力。利用计算机视觉技术,对拍照获得的习题图像进行文本检测和识别,使得将纸质习题自动变成电子文档成为一种可能。另一方面,文本检测和识别技术一直以来都是计算机视觉研究的热点问题。现有的研究主要面向自然场景和印刷体识别,鲜有针对习题检测和识别的研
学位
研究目的和内容:9号染色体长臂的C-ABL基因移位至22号染色体上长臂断裂点集中区基因(BCR)产生致癌的BCR-ABL融合基因,有95%的慢性粒细胞性白血病(Chronic Myelogenous Leukemia,CML)患者被检测有此染色体易位,该融合基因编码的BCR-ABL融合蛋白(BCR-ABL fusion protein)具有很强的酪氨酸蛋白激酶活性,是CML发病的分子生物学基础。基
学位
电商异常订单检测是近年来异常检测在电商供应链领域中最为热门的任务之一。早期的异常订单检测任务通常是采用个别算法构筑模型,并利用调参手段尽力逼近模型精度上限。但在实际情况中,异常订单的起因多种多样,尽管统一被标注为异常订单,但其样本特征与标签间的映射关联不同,也就是说,基于单一假设的单模型仅擅长识别符合假设的异常订单,而对背离假设的异常订单识别能力有所欠缺,造成单模型难以胜任检测任务。随着组织和个人
学位
据国家统计信息中心统计,2021年1月至10期间,全国总诊疗人次达到54.4亿人次,同比增长23.4%,医疗服务体量巨大。然而,我国人口基数大,人均医疗资源相对较少,且部分地区医疗资源仍存在短缺情况。在保证完成大体量医疗服务的同时,借助用药辅助系统提高医疗服务质量与服务效率是缓解医疗资源短缺的有效方法之一。用药辅助系统可以为医生用药提供辅助决策信息,在医疗资源短缺、医疗服务需求量大的情况下,不仅可
学位
我国拥有十几亿人口,土地面积居世界第三,人口密度较高。特别是一线城市,存在着诸多公共场合,如机场、火车站、影剧院、球场等,不仅人口聚积密度高,而且形成了人流极大的场景。在这类场景下,由于人们素质参差不齐、心中目的目标各异,各种摩擦、冲突时有发生,既增加了突发事件出现的概率,给公共管理带来了巨大挑战,也极大地提高了管理的难度和成本。针对对突发公共安全事件频发态势,国家出台了相对严柯的管控措施,但收效
学位
股价预测在金融市场研究中有着非常重要的意义,想要准确预测股价的变化是非常困难的。随着经济和科技的发展,金融市场也变得更为复杂,每天生产着数以亿计的交易信息,由此而产生了大量的低价值数据,由于这些数据具有高噪声、非线性、波动性强等特点,所以这些数据已不适合通过传统计量模型来处理。根据行为金融学理论,股票的内在价值只是决定股票价格的因素之一,投资者的行为也深刻影响着股票价格。投资者在投资决策中容易受到
学位
数据规模在持续爆炸式不断扩大。IDC(International Data Corporation)对全球数据规模进行的预测显示,截止到2025年,全球数据量可达175ZB。社会各界、各方团体对于数据的使用和认知不断加深,人们愈发重视数据本身的经济学特征。中国是数据大国,随着数据要素化政策的出台,各地数据交易机构建立并试运行,国内数据市场初具规模,其健康发展需要坚实的理论研究作为支撑。但是数据资产
学位
在信息过载的当前互联网环境下,用户获取有价值信息的信息成本越来越高,为了解决这一问题,推荐系统(Recommendation System,RS)应运而生。推荐系统从用户项目交互信息或静态特征中推断用户偏好,并进一步推荐用户可能感兴趣的项目,以帮助用户做出更有效的决策,有很大的应用价值。而在某些场景中,用户信息是匿名的,推荐系统只能根据用户点击行为序列来学习用户的兴趣表示,该类情况被归为推荐系统的
学位