论文部分内容阅读
随着计算机技术和因特网的飞速发展,人们期望可以高效地从海量信息中获得准确的目标信息,和基于关键词的传统搜索引擎相比,问答系统可以更好的满足人们的检索需求。问答系统作为信息检索的高级形式,它允许采用中文自然语言作为查询条件,而且直接以答案的形式将结果返回给用户,大大提高了用户的检索满意度和时间成本。问答系统一般包含三部分:问题分析、信息检索和答案抽取。问题分析是整个问答系统的基础,而在此部分中问题分类模块又是根基。对问题进行分类,可以有效的缩减候选答案的空间和查找准确答案的时间,而且一个问题所具有的类型信息直接决定了答案的抽取策略,问题分类结果的好坏直接影响着整个问答系统的性能和质量,因此,研究问题分类对于提高问答系统的性能具有重要意义。在对问题分类的相关理论进行全面和深入地学习的基础上,本文面向开放域,针对中文事实型问题,主要研究中文问题分类,研究内容包括以下方面:1.基于机器学习的问题分类在进行学习之前,必须要把问题表示成计算机可以识别的结构化数据形式,本文选用的模型是向量空间模型,为了更好地表示问题的语义类别,通过对中文问题的分析,本文提出了一种融合多种语义的问题分类特征提取的新方法,该方法提取问题疑问词、问题的核心关键词在《知网》中的主要义原、命名实体、单/复数作为问题的分类特征来表示问题,其中每一类特征都有相应的提取方法。2.由于中文自然语言的复杂性和多样性,在提取问题的核心关键词在《知网》中的主要义原的过程中,确定某个词汇的正确义项便尤为重要。本文提出了一种基于义原的词义消歧方法,该方法通过依存关系找到歧义词的上下文,从上下文义项和歧义词义项之间的义原关系中获取指导词义消歧的知识,完成词义消歧。将其引入到问题分类过程中可以比较好地确定某个词汇的正确义项,在一定程度上解决了歧义词对分类效果的不良影响。3.设计了多个实验验证本文提出的问题分类特征提取方法的有效性和引入基于义原的词义消歧方法的必要性,最终得出SVM算法比较适用于本文的分类特征,在大类和小类上的分类精度分别达到92.82%和84.45%,优于其他同类分类方法,并使用SVM算法设计并实现了一个中文问题分类系统。