论文部分内容阅读
受限域问答系统是自动问答系统的一种,相对于开放域问答系统更具实用性和可行性而成为自然语言处理领域的研究热点。受限域问答系统通常包含三个部分:问句分析、信息检索和答案抽取。问句分类是问句分析中的一个重要模块,对问句进行分类,可以减少检索范围而提高其效率,且类别信息可以指导答案抽取策略,因此问句分类的性能直接影响问答系统的性能和质量。问句分类包括问句预处理、问句表示、特征选取、特征权重计算、分类算法设计等处理流程,其中特征选取、特征权重计算和分类算法的设计是问句分类模块中的核心部分,本文主要做了以下研究工作。首先,本文提出了一种基于词关联网络的领域问句特征权重计算方法。该方法针对目前特征权重计算方法都是基于统计信息而不考虑语义信息的缺点,结合受限域的特点,利用《同义词词林(扩展版)》计算同类问句集合中词语间语义相似度,将语义相似度作为路径构建词关联网络,并根据网络系统中节点重要性理论与TF-IDF思想相结合计算领域问句特征的权重。其次,本文提出了一种基于改进的二次贝叶斯分类模型的领域问句分类算法。该方法采用句法信息和句法结构分析提取领域问句特征,针对受限域的特殊性对传统的贝叶斯分类器做出改进,结合基于词关联网络的领域问句权重计算方法对领域问句进行分类。最后,本文利用昆明理工大学智能信息处理实验室提供的旅游领域语料设计并实现多次对比实验,对提出的特征权重计算方法和分类算法进行了验证,并给出实验数据和评价结果。实验结果证明了本文方法的可行性。