基于NL2SQL的结构化数据检索研究与系统实现

来源 :中南财经政法大学 | 被引量 : 0次 | 上传用户:setsail2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络技术飞速发展的今天,数据成为创新和增长的重要驱动力,它可以帮助企业了解和改进业务流程,从而制定适当的发展战略,此类数据很多以某种固定结构存储在关系型数据库中,用户通常需要通过相关系统的交互界面完成数据检索,而自然语言作为人类最常使用的表达方式,具有简单、易用的优点。在此背景下,通过自然语言完成对结构化数据的检索,不仅为用户提供了一种新颖便捷的检索方式,还能提升数据的查询效率。自然语言理解NLU(Natural language understanding)旨在通过人工智能技术,让计算机像人类一样理解以自然语言形式表达的文本或语音中的信息,属于自然语言处理NLP(Natural language processing)中的一个重要子集。近年来,随着神经网络技术的发展,将自然语言形式的查询描述转换为结构化查询语言SQL(Structured query language),即NL2SQL(Natural language to SQL)受到了广泛关注,该技术将检索请求转换为SQL语句,在实现对结构化数据灵活检索的同时,无需复杂的对象关系映射,简化了检索系统的开发。目前,该领域的大部分研究都是针对英文开展的,因此,本文研究了NL2SQL技术在中文领域的解决方案,通过分析SQL结构特点和对比实验,提出了一种面向中文的SQL生成方案。本文将NLU应用于结构化数据检索中,研究如何通过自然语言完成对结构化数据的检索,并基于NL2SQL将结构化数据检索任务转换为SQL生成任务。在查询语句生成过程中,本文根据SQL结构特点,构建由八个部分组成的SQL生成模板,通过神经网络模型对模板各部分进行预测、填充,进而完成SQL查询生成,在中文NL2SQL数据集TableQA中的逻辑准确率和执行准确率分别达到了77.5%和78.4%,优于SQLNet等NL2SQL模型。本文主要工作包括:(1)设计了面向中文领域的SQL查询生成流程,基于SQLNet等模型使用的模板填充思想,将SQL分为八部分预测,并根据各部分特点,通过两个阶段预测模型完成对SQL生成模板各部分的填充。(2)在第一阶段预测模型中,将自然语言问句与数据表模式拼接输入BERT(Bidirectional encoder representation from transformers),并将BERT输出的向量表征输入基于LSTM(Long short term memory)和注意力机制的模板元素预测层,完成对生成模板中七个部分的预测。(3)在第二阶段预测模型中,根据第一阶段模型的预测结果和数据表内容构建候选条件对,通过条件对判定模型筛选出正确的条件对,进而完成对生成模板中查询条件值部分的预测,解决了问句表达与数据库中存储值不一致的问题,使模型适用于更复杂的查询场景。(4)文章最后将算法模型应用于上市公司信息检索,基于Django框架设计并实现了上市公司信息自然语言检索系统。将模型能力接口化、系统化,用户可以通过简单的交互界面使用自然语言完成对上市公司相关信息的检索,无需关注背后复杂的SQL生成逻辑。
其他文献
随着5G时代的到来与数字化社会的快速发展,人们的生活越来越依赖网络。与此同时,方便人们表达自我与网络社交的社交媒体平台也飞速发展。越来越多的用户进入社交媒体平台,留下了丰富的个人动态、个人信息等数据,这些数据都是用户自主产生,具有极大的真实性与可靠性。通过分析用户在社交媒体平台产生的数据,可以做到尽可能全面、准确地描绘用户画像。用户基本属性和用户兴趣是社交媒体用户画像重要的组成部分,对于社交平台运
学位
流行性感冒极易于每年秋冬季在人群中流行传播,严重影响人们的生命安全和生活节奏,流感疫苗可以帮助人体提高免疫力,有效保护人体避免感染流感病毒。目前各国公共卫生机构的一项重要任务就是制定各种流感疫苗接种政策,从而提高流感疫苗在人群中的普及率,保障人民的生命健康安全。由于个人对流感疫苗的了解程度较低或其他原因,有不少人对接种流感疫苗持犹豫或拒绝的态度,这对流感疫苗的接种工作造成了一定的困难。因此需要分析
学位
中国已成为全球第二大经济体,而股票市场则是我国经济十分重要的环节,改革开放进入二十一世纪以来,我国的股票市场不断发展与完善,股票趋势预测的话题备受关注,若能准确地判断股票在未来的波动趋势,这将产生巨大的价值,带来收益的同时也能规避风险。计算机技术的发展,使得使用神经网络技术对股票趋势进行预测成为热门研究领域,如使用长短期记忆神经网络模型、循环神经网络模型、支持向量机模型等,基于股票的历史数据,对股
学位
随着大数据时代的到来,数据资源的价值逐渐受到关注与认可,人们对于数据交易的需求也在日益增加。然而,我国目前的数据交易仍面临着诸多问题,其中,数据交易过程中的数据安全问题是重中之重。类似于传统的商品交易,数据交易也是多方参与主体相互促进、相互制约的演化博弈过程。因此,本文从数据安全角度出发,展开对数据交易四方参与主体的演化博弈研究。本文基于数据安全角度,首先,结合数据交易的发展现状和现有研究,将政府
学位
随着信息技术的快速发展,人们同时扮演着信息的消费者和生产者两个角色。作为一种从海量数据中快速发现信息的技术手段,推荐系统逐渐成为解决信息过载问题的主要方式之一,被广泛应用于电子商务、音乐/视频服务、社会媒体、广告策略等众多领域。面对推荐场景中日渐丰富的多模态信息,传统推荐方法无法有效挖掘用户深层次的偏好特征,很大程度上不能满足用户个性化推送的需求。近些年,研究者们将用户评分、评论、浏览等数据进行特
学位
近年来,Web of Science、Google Scholar等文献数据库不断更新完善,为研究者们提供了丰富的文献参考。文献量大、研究因素复杂成为了许多研究领域的一个特点。研究者在研究初期需要快速准确地对大量文献内容进行梳理与科研统计,了解研究领域的发展趋势和方向,以开展新研究。其中,研究两代人社会地位变化的“代际流动”(Intergenerational mobility)领域,文献量日益增
学位
在我国大力推行建设数字强国的背景下,将计算机技术与金融知识相结合,分析处理海量数据并从中提取规律,从而构建量化交易策略,已经成为许多投资者普遍选择的投资方式。在人们的物质生活得到了极大提升之后,越来越多的人参与到股票投资之中,程序化的股价研究既能规避投资者因情绪变动而出现的主观误判,又能在庞大的数据中挖掘出人力无法发现的隐藏规律,因而被众多专家学者所关注。投资者希望能够制定出一种智能化交易策略,从
学位
在互联网时代,类似今日头条这样的在线新闻分发平台吸引了数以亿计的用户。由于在线新闻服务的便捷性和时效性,许多用户的新闻阅读习惯已经从传统报纸转向数字新闻内容。那么在信息爆炸时代,平台如何为用户过滤筛选出用户有阅读欲望的新闻成了新闻推荐领域研究的重点任务。协同过滤算法和神经网络模型是新闻推荐领域研究的两大重要方向。然而,现有的很多方法大都忽略了新闻隐式信息是新闻的重要组成部分,对新闻表示的完整性和准
学位
大规模在线开放课程(MOOC,慕课)这一概念自2008年被提出,2012年开始在世界范围内兴起。慕课的诞生旨在为每一位学习者提供平等且高质量的学习资源,特别是在新冠疫情的大背景之下,慕课更是凭借其先天的优势成为了世界各国大力推广的教育方式。但是慕课由于缺乏强约束性,其高退课率以及低通过率也广为学界所关注。越来越多的研究者开始着手研究如何提升慕课的留存率以及通过率,其中,针对慕课平台学习者群体中那些
学位
随着信息爆炸时代到来,越来越多的人难以在短时间内找到自己需要的资源。尤其是在蓬勃发展的科学研究领域,论文数量呈指数级增长,这给快速获取与自己研究领域密切相关的论文带了巨大的困难。通常,在研究生教育期间,为了更好的梳理自己研究方向的发展脉络,研究生要花费大量的时间和精力寻找论文。因此,个性化的论文推荐方法被研究生们所期待。近年来,随着社交网络的快速发展,基于社会关系规则和网络理论的推荐方法在一定程度
学位