论文部分内容阅读
汉语自然语言查询系统是自然语言理解、数据库技术、人工智能、人机界面相结合的产物。它使用户可以直接以汉语自然语言的方式,向数据库系统发问并获得所需的信息,从而大大改善了人机交互的容易程度。近年来,它作为人机交互中智能接口的重要部分受到重视,成为具有重要理论意义与广泛实用价值的研究领域。 本论文主要的研究目标是结合考古数字博物馆特定的应用需求,研究与实现一个基于受限的汉语自然语言查询系统。它允许用户在界面层输入受限汉语查询语句,然后通过一定的算法把用户的输入转换成标准的SQL语句,并在文物数据库中完成所要求的查询,输出查询结果。 本论文的工作与贡献主要有: 1.提出符合汉语语法并能满足查询要求的受限文法规则。本论文首先通过对山东建筑工程学院计算机系2001级的24名学生进行问卷调查得到汉语查询语句的四种句型,分别为:祈使句、疑问句、省略句和多语句。且分析得到祈使句是使用频率最高的句型(约占70.2%),并据此提出本系统所采用的符合汉语言习惯并能满足考古数字博物馆查询要求的受限文法规则。 2.研究设计了适合考古数字博物馆的系统词典。如何建立一个简单适用的系统词典是自然语言查询系统研究工作的基础和难点之一。本文通过对考古数字博物馆的数据进行了详细地分析,提出并设计了三种系统词典:通用词典、专用词典和关联词典。这三种系统词典在查询语句的分析中分别起到了不同的作用:通用词典可以支持进行汉语查询语句的分词操作,并得到切分后的各单词的词性序列,从而可以利用词性序列和受限文法规则得到查询语句的查询目标和查询条件;专用词典可以用于得到汉语查询语句的标准化形式,为SQL语句的形成进行预处理操作;关联词典可以用于得到各表之间的关联路径,从而解决了汉语查询语句中比较复杂的表间相互联系的表述问题。本文采用SQL SERVER数据库表的形式对它们进行定义。这样既可以和查询中用到的后台数据的定义形式统一起来以便于系统的实现,又可以提高系统对查询语句的分析速度,从而提高了系统的性能。 3.提出了一种改进的分词算法——WSDS(Word Segmentation on Database Semantic)算法。该算法参照和单词相关的系统词典中给出的数据库语义,应用考古数字博物馆的领域知识,利用信息论和运筹学的相关知识消除了切分的歧义