论文部分内容阅读
随着虚拟现实技术、多媒体技术、计算机网络技术的快速发展,人们越来越需要准确、高效的信息检索方式,帮助他们在海量的数据中查询感兴趣的数据信息。问答系统通过问句识别分析、数据库查找,返回答案给用户,是一种非常有效的信息检索方式。但目前的问答系统基本上都是与上下文无关的,即对于结构不完整的语句无法准确的识别,因此本文基于此进行研究。本文主要的研究内容有:(1)研究交互对话中省略句的构成,总结一般性语句的省略部分。将完整结构语句进行自定义成分划分。(2)研究如何识别语句省略情况,将省略的部分补充起来。并提出基于语句相关度的补充算法计算补充完整后的语句与前面语句的相关程度,进一步确定补充的成分是否合理。(3)通过对语句进行自定义划分建立语义树,用来存放数据库中的语句,研究基于语义树的语句相似度算法来对问答系统的答案进行抽取。本文的创新点有:(1)对完整结构的语句进行成分划分,提出“核心特征词”、“属性特征词”、“一般性特征词”的概念,将完整性语句划分为“核心特征词”、“属性特征词”、“一般性特征词”、“疑问词”的组合。(2)提出基于语句相关度的补充算法,将结构不完整的当前语句根据前面语句的“核心特征词”、“属性特征词”、“疑问词”进行成分补充。这里的缺省主要是“核心特征词”、“属性特征词”和指代。补充后的语句要与前面语句群根据其相关程度进行渐进式的语句相关度算法。(3)通过“核心特征词”、“属性特征词”、“一般特征词”的关系,建立语义树,语义树的兄弟表示同级、并列关系,语义树的父亲-孩子表示包含、指向、修饰关系。通过语义树查找相关度算法计算,得到与当前问句最匹配的数据库的语句。通过实验证明,本文对于结构不完整的语句具有较好的恢复语句能力,而且语义树的相似度算法对于问答系统也有较高的准确率。