论文部分内容阅读
随着数据库应用及信息检索技术的广泛普及,越来越多的非专业用户需要一种易于掌握的界面去访问所需的信息。数据库自然语言接口(NLIDB)技术在这种需求中应运而生。它大大简化了人机交互的过程,使用户可以以自己熟悉的自然语言和应用领域的概念访问去访问数据库。随着各个企业对于数据库应用的需求越来越强烈,对中文数据库自然语言查询技术的研究将具有重要的理论意义和实用价值。本文研究的内容是设计和实现一个中文数据库自然语言接口系统,主要有以下几方面的研究成果:
1.设计了一个具有良好可用性、可移植性的数据库自然语言接口模型。该模型在设计上把程序设计与知识库分离开来。自然语言处理部分包括词法分析、句法分析、中间语言转SQL语言等几个独立模块。知识库部分划分为通用知识库和专用知识库。这种设计使其具备了较强的可移植性,便于系统的移植和进一步扩充。
2.使用了一个基于统计与数据库语义相结合的词法分析方法。该模块不仅将汉字切分为词、标注词性,而且进一步划分每个词的数据库语义类别,对于非通用词类还标注出其数据库语义。通过相关语义确定法等实现对对于多义词的排歧。对于含有数据库隐含知识的词也给出了详细的处理方法。
3.实现了一个基于数据库语义的依存文法分析模型。该模型详细定义了数据库对象之间的依存关系,并给出了判定规则。它最终输出中间语言——一棵具备良好的向SQL转换能力的语义依存树。最后本文给出了中间语言向SQL转换的算法。本系统支持复杂的自然语言查询语句,包括嵌套查询、含量词和否定词的查询、分组查询以及含聚集函数的查询等。
最后构建了一个原型系统,应用于教务、天气领域的查询。实验表明,该系统基本能够有效地处理各种常见形式的查询请求,具有良好的可用性和可移植性。