论文部分内容阅读
随着数据库应用及信息检索技术的广泛普及,越来越多的非专业用户需要一种易于掌握的界面去访问所需的信息。数据库自然语言接口(NLIDB)技术在这种需求中应运而生。NLIDB是人工智能领域的一个研究热点,是问答系统的一个重要的分支。NLIDB是指允许用户以某种自然语言(如汉语)的形式访问存储在数据库中的信息。它涉及了数据库系统、自然语言处理、人工智能、人机界面等多方面的知识。30多年来,NLIDB的研究取得了很大的进步,但在其通用性、可移植性等方面,还需要做进一步的工作。正是本着这一出发点,本文开展对数据库自然语言通用接口(NLTIDB)的研究。 命名实体识别是问答系统的关键技术之一。在对NLTIDB进行查询时将要涉及一些飞机名称等实体词,本文通过改进互信息计算的方法识别了查询语句中的命名实体,从而改善系统查询的效果。 本文设计了领域的知识库和模式库。为了使NLIDB具有通用性,我们在知识库方面设计了通用知识库和领域知识库;在模式库方面设计了一种含有多种信息标记的模式扩展结构,将问题模式、信息抽取模式和数据库信息添加到模式扩展结构中并保存在模式库里。知识库和模式库的设计可以极大减少领域信息嵌入代码的程度,并且为系统查询分析提供了资源条件,与NLTIDB配合有助于改善查询功能。 通常信息检索方法有关键词匹配和相似度计算两种方法,本文尝试使用层级最大熵的方法和支持向量机的方法进行信息检索。最大熵和支持向量机是机器学习的重要方法。本文以模式库作为检索资源,从词法、语块、句法和语义的层次分析找出特征向量并进行训练,通过机器学习的方法将问句从模式库中检索出相匹配的类型。实验证明机器学习的方法完成信息检索任务是可行的。