论文部分内容阅读
语义解析是实现自然语言向计算机可执行的规范化表示转化的一项技术。它作为人工智能的一个分支,是自然语言处理领域的热点问题,也是智能系统研究的核心技术,为机器翻译、智能搜索、人机对话等应用提供了基础。随着科学技术的不断发展,数据库的应用范围越来越广,不仅应用在企业的生产中,许多个人和研究机构也开始应用数据库技术。而掌握SQL语言则成为使用数据库的前提,对于那些不熟悉SQL语言的用户来说,数据库中的数据并没有发挥其最大价值。因此,要想让数据库中的数据服务于更多的用户,必须打破自然语言和SQL语言的界限,成功将自然语言转化为计算机可执行的数据库语言,而语义解析对于这一目标的实现发挥着至关重要的作用。由于统计专业领域相比百科领域更为复杂,而且缺少针对统计领域的公开数据集,所以目前针对统计专业领域的语义解析研究相对较少。基于上述原因,本文以数据库的自然语言查询接口作为应用场景,改进现有的基于LSTM的英文语义解析模型,并将其应用在统计领域的语义解析任务上,将自然语言问题转化为数据库查询语言。帮助更多的用户不依赖SQL语言就能实现对数据库信息的查询功能,增强数据的共享性和实用性,从而扩展数据库的应用场景和使用范围。主要工作包括:(1)针对专业领域文本数据专业性强的特点,本文在现有的LSTM语义解析模型中引入Word2Vec词嵌入模型。借助Word2Vec词嵌入模型,将文本数据向量化,实现文本的特征提取和表示,构建用于专业领域语义解析的词向量,减少统计领域专业性强带来的影响。(2)构建了一个专属于统计领域的NL2SQL数据集,弥补了统计领域语义解析研究缺少公开数据集的问题。在数据集中,每一条数据都包含两部分,分别是自然语言问题和对应的SQL查询语句。(3)实现了融入词嵌入的Word2Vec-LSTM语义解析模型,并以本文构建的统计领域数据集和词向量为训练数据进行实证研究,在训练过程中,对模型中Batch-size和激活函数两个部分进行调整,最终实现自然语言向SQL语句的转化。结果表明:加入词嵌入的深层神经网络的语义解析模型能够更好的适用于专业性强的统计期刊数据,经过对比研究,最终发现,当Batch size=26并且激活函数选用PReLU时模型预测准确率最高,相比基于LSTM的语义解析模型提升了 7.3%。