结构化数据的自然语言查询系统研究与实现

来源 :中南财经政法大学 | 被引量 : 0次 | 上传用户:piaodedaocao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
结构化数据是一种组织结构明确的数据,具有价值密度高、便于存储和管理的特点。基于这些特点,很多有价值的信息采用结构化数据的形式存储。结构化数据的查询与人们的生产生活息息相关。但传统的结构化数据查询方式存在泛化能力弱、能表达的指令有限的问题,难以满足复杂多样的信息查询需求。自然语言查询指的是通过自然语言来查询结构化数据。这种查询方式可以弥补传统查询方式的不足,为用户带来更友好、灵活的查询体验。将自然语言转化为结构化查询语言SQL(Structured Query Language)是实现自然语言查询的方法之一。这种技术被称为自然语言生成SQL语句NL2SQL(Natural Language to SQL Statement)技术。现阶段,深度学习技术在自然语言处理领域上取得良好的效果,基于深度学习的NL2SQL方法成为热门研究方向。本文对现有的NL2SQL方法以及深度神经网络等技术展开分析与研究,设计并训练了一个NL2SQL模型。然后通过迁移学习方法将NL2SQL模型迁移到招标信息领域。利用迁移后的NL2SQL模型,本文设计并实现一个面向结构化招标信息的自然语言查询系统。本文的主要工作如下:1.分析自然语言生成SQL任务。本文根据SQL语法规则定义了一个SQL模板,并基于该SQL模板将自然语言生成SQL任务拆解为5个子任务。根据子任务取值集合的有限性,本文将子任务分为有限集合预测任务和无限集合预测任务两类。2.设计并训练自然语言生成SQL模型。本文采用分类模型和条件值预测模型分别处理有限集合预测任务和无限集合预测任务。分类模型将子任务关联关系体现到模型结构中,为子任务输入更多先验知识。同时,分类模型用SQL语法规则减少不符合语法的输出。条件值预测模型根据问句和数据表中的数据构建条件值取值集合,用取值集合约束条件值预测任务的输出空间,提高预测准确率。为了确定两个模型的最优超参数组合,本文在大规模中文单表数据集Table QA上进行了超参数优化实验。在该数据集的测试集上,模型整体的逻辑准确率和执行准确率分别达到了83.74%和88.86%。3.面向招标信息领域的模型迁移。为了使NL2SQL模型能更适应招标信息领域的查询任务,本文利用招标信息数据集将模型迁移,得到适用于招标信息领域的NL2SQL模型。其中,招标信息数据集通过人工标注与数据增强的方法构建。4.设计并实现自然语言查询系统。本文结合应用场景和用户需求,设计并实现了一个面向结构化招标信息的自然语言查询系统。利用迁移后的NL2SQL模型,系统实现了用自然语言查询结构化招标信息的功能。
其他文献
近年以来,由于商业银行的客户经营长期遵循着“二八法则”,银行把重心全部放在对高端财富客户的营销和维护上,而对于普通长尾客户的关注微乎其微,各家银行金融机构对于高端财富客户的竞争越来越激烈,并且营销的成本也在逐渐上升,但是价值的产出却趋于下降,利润空间也在逐渐萎缩,那些在传统观念里被认为是低效率、高成本,并且很难提供服务的“长尾”客户,已成为当前互联网金融企业利润的最大增长点。如今,在金融科技迅速发
学位
作为我国金融改革的战略重点,公司债券在服务实体经济、优化资源配置、支持宏观调控等方面发挥了关键作用。2021年,随着公开发行注册制的明确,公司债券市场的发展势头也愈加强劲,单年度发行主体数量与募集资金金额都站上新的历史高位。公司债券繁荣发展的背后,也要警惕无序扩张带来的债券违约风险。自2014年首例公司债券违约打破刚性兑付以来,债券边际违约率连年增加。在日趋严格的金融监管下,公司债券违约逐渐呈现常
学位
当前,并购重组成为企业实现扩张和转型发展的有效措施,国家也出台相关政策措施大力提倡企业通过兼并收购来整合资源、提高竞争力。在经济全球化和国家的相关政策措施的支持下,许多企业纷纷通过并购重组提高竞争力,中国的并购重组市场充满活力。另一方面,中国的并购市场也存在隐患,由于市场监管存在漏洞、许多企业忽视自身情况盲目发起并购活动或是并购后缺乏有效的整合,导致企业未达到期望并购绩效。股权激励作为一种激励机制
学位
我国互联网信息技术在近十年来正处于高速发展的阶段,媒体行业也在随之快速发展,社交媒体等新型媒体渗透到人们的日常生活中,在社会中发挥着重要的作用。其中,媒体对企业发展就有着重大的作用,一方面是媒体通过扮演监督者的角色来促进公司治理;另一方面,媒体通过进行不实报道对公司造成一定程度的损害,而这种负面影响也随着现代媒体的快速发展而变得更为常见,成为了企业经营发展过程中面临的主要风险之一,即企业舆情风险。
学位
党的十九大报告指出,建设教育强国是中华民族伟大复兴的基础工程,必须把教育事业放在优先位置。教育培训企业作为发展教育的重要载体,在近十年得到了快速发展。从2010年到2020年,整个行业的市场规模从7 800亿元增加到了25 096亿元。但在这种快速发展的背后也隐藏着问题——教育培训企业的财务造假事件时有发生,比如好未来和达内教育都曾被爆出过虚增收入。这些事件既损害了企业的声誉,又侵害了投资者的利益
学位
在当前我国资本市场改革发展不断深入、全面实行股票发行注册制的背景下,注册会计师作为我国资本市场和经济发展的“看门人”,发挥着维护社会公平正义、规范市场经济秩序、保障经济高质量发展的重要作用。近年来,上市公司财务会计信息失真、恶意造假等现象时有发生。严厉打击财务造假,特别是对资本市场违法犯罪活动保持“零容忍”,大幅提高违法犯罪成本,让违法者、尤其是“首恶”付出沉重代价,对维护资本市场健康发展和经济高
学位
近年来,工业化和城镇化的不断发展导致了雾霾天气频繁发生。雾霾是一种极具危害性的污染天气现象,对人的身体健康和地区经济发展都有一定的影响。为了治理雾霾污染,我国颁布了一系列的法律法规。自2013年《大气污染防治行动计划》发布实施以来,我国重点区域的PM2.5浓度显著下降,大气环境管理能力愈渐提升,环境法治保障愈加有力。经过长期大气污染政策实施,我国雾霾污染进入深度治理阶段。长江经济带作为我国经济发展
学位
连续并购是由并购衍生出的一个概念,是指企业在一段时间内持续性地并购多家公司的战略性行为。在国家鼓励半导体行业大力发展的政策导向下,半导体行业掀起了一股并购潮。通过连续并购得到标的公司的研发技术和市场份额,是半导体企业实现跨越式发展的主要方式之一。因此,我国半导体企业在并购活动中如何明确自身并购动因,提高并购绩效这一研究,成了当前值得探讨的话题。基于半导体行业内并购规模大且成功的典型案例,本文以半导
学位
随着经济全球化的进展,突发高致病性疫病问题从未间断,一直是现代社会共同面对的一个关键问题,不但严重威胁着人民的基本生命健康,同时还严重威胁着国家安定和经济社会发展。中国民航体系的复杂性对中国民航企事业单位的应急管理工作提出相当高的要求,由于中国民航长期承担着防控传染病疫情跨国传递、维护国门安全的重任,因此如何提升中国民航的应急管理能力直接关乎国门安全,已经成为中国当下亟待深入探讨的重大问题。同时,
学位
街道公务员是政府和群众之间的“桥梁”,是政策落到基层的“实施者”。有调查显示,在工作压力、生活压力、家庭压力等多方面影响下,街道公务员职业倦怠已经成为了当下的现状。街道青年公务员产生了职业倦怠,一方面影响他们的工作习惯,另一方面使得政府形象产生负面影响。对街道青年公务员的职业倦怠问题进行研究分析,能激发他们内生工作动力,加强基层青年公务员管理制度的建设,对营造担当作为的社会氛围、推动社会发展具有重
学位