论文部分内容阅读
随着信息技术的飞速发展,各行各业积累了大量的数据,并以前所未有的速度迅猛增长,大数据时代已然来临。数据开放共享为挖掘大数据中的价值提供了可能,其开放性也决定了数据使用者不再仅仅是专业的数据研究人员,越来越多行业用户需要对数据库中的信息进行深度分析和使用。在传统数据库管理系统中,用户通过标准的数据库查询语言进行查询分析操作,这对于没有专业知识基础的用户来说十分困难。如何提供方便有效的数据库查询方式是有待解决的关键问题,对该问题的研究在数据开放共享环境下具有十分重要的研究意义和实用价值。
数据库自然语言查询接口对自然语言查询进行解析,并通过一定规则将其转化为传统SQL查询语句,为普通用户提供了方便自然的查询方式。然而,由于自然语言在表达上的模糊性和抽象性与结构化查询语言的准确性和确定性存在巨大鸿沟,现有方法对于简单语义查询尚可进行较为准确的转换,然而对于包含分组筛选、嵌套子查询等复杂语义查询,难以准确捕捉到用户的查询意图,导致转化效果不理想,极大地影响了自然语言接口的应用范围。针对上述问题,本文对数据开放共享环境下数据库自然语言查询接口相关技术进行研究。
首先,论文对数据库自然语言查询接口和数据库交互式检索方式的相关工作进行详细调研,深入分析两者的优缺点。在此基础上,设计一种自然语言到SQL语句的二阶段转化框架,在自然语言查询转换中引入用户交互以处理自然语言查询语义描述与结构化查询语言之间的语义鸿沟。在该框架中,通过提出基于倒排索引的“值-属性”映射方法、用于交互的预定义函数及查询转换方法等一系列技术手段,使得该方法可以更好地捕捉用户的查询意图,同时提高嵌套子查询及渐进式查询等复杂语义查询的转化准确率。
进一步,为了在提高自然语言转化准确率的同时,减少人机交互迭代次数,本文提出基于先验知识辅助学习的自然语言查询转化方法。以 Web 上爬取的“自然语言-SQL 对”以及在二阶段查询转化中生成的“自然语言-SQL 对”作为训练数据,建立辅助转化库。对于新到来的目标查询语句,根据树核算法计算子树相似度,找到对应的匹配模板进行转化,基于先验知识以提高转化效率。
最后,本文实现了上述基于倒排索引的“值-属性”映射、自然语言到SQL的二阶段转化方法和基于先验知识的查询转化方法,并在实际医疗数据集上进行实验,通过对比分析实验结果,验证二阶段转化方法和基于学习转化方法的可行性和有效性。
数据库自然语言查询接口对自然语言查询进行解析,并通过一定规则将其转化为传统SQL查询语句,为普通用户提供了方便自然的查询方式。然而,由于自然语言在表达上的模糊性和抽象性与结构化查询语言的准确性和确定性存在巨大鸿沟,现有方法对于简单语义查询尚可进行较为准确的转换,然而对于包含分组筛选、嵌套子查询等复杂语义查询,难以准确捕捉到用户的查询意图,导致转化效果不理想,极大地影响了自然语言接口的应用范围。针对上述问题,本文对数据开放共享环境下数据库自然语言查询接口相关技术进行研究。
首先,论文对数据库自然语言查询接口和数据库交互式检索方式的相关工作进行详细调研,深入分析两者的优缺点。在此基础上,设计一种自然语言到SQL语句的二阶段转化框架,在自然语言查询转换中引入用户交互以处理自然语言查询语义描述与结构化查询语言之间的语义鸿沟。在该框架中,通过提出基于倒排索引的“值-属性”映射方法、用于交互的预定义函数及查询转换方法等一系列技术手段,使得该方法可以更好地捕捉用户的查询意图,同时提高嵌套子查询及渐进式查询等复杂语义查询的转化准确率。
进一步,为了在提高自然语言转化准确率的同时,减少人机交互迭代次数,本文提出基于先验知识辅助学习的自然语言查询转化方法。以 Web 上爬取的“自然语言-SQL 对”以及在二阶段查询转化中生成的“自然语言-SQL 对”作为训练数据,建立辅助转化库。对于新到来的目标查询语句,根据树核算法计算子树相似度,找到对应的匹配模板进行转化,基于先验知识以提高转化效率。
最后,本文实现了上述基于倒排索引的“值-属性”映射、自然语言到SQL的二阶段转化方法和基于先验知识的查询转化方法,并在实际医疗数据集上进行实验,通过对比分析实验结果,验证二阶段转化方法和基于学习转化方法的可行性和有效性。