论文部分内容阅读
随着互联网的发展,计算机可读的文本信息也越来越多。人们期望迅速、准确获取信息的需求对信息检索在查询处理和答案处理两个方面提出了新的挑战。问题回答作为自然语言处理领域中的一个相当活跃的分支,所研究的内容就是理解用户用自然语言提出的需求,进而在大规模的信息中自动地给出满足用户特定需求的准确答案。问题分类作为一个新的研究领域和问题回答系统的研究是相辅相成的,是问题回答系统的一个重要模块。问题回答系统的首要任务就是需要理解用户的需求。对系统而言,为了能够正确地回答问题,知道一个问题寻找什么样的答案是非常重要的。问题分类为问题回答系统理解“用户寻找什么”提供了重要信息和解决方案。本文就问题回答系统中问题分类的研究,在以下几方面提出了新的见解和看法:首先,在使用向量空间模型来表示问题方面,增加以概念、依存关系等语言知识作为向量空间模型的特征项,并研究了特征抽取在问题分类中的作用。提出了使用x~2统计量选择概念特征、减少歧义的方法和在规则分类中使用更一般化的上位概念作为特征项的方法。通过使用语言知识表示问题,可提高6%的分类精度。其次,在分类方法上,对人工规则、机器学习规则、统计方法等多种方法进行分析和比较,研究了支持向量机方法,以及表决方法、Adaboost、ANN、TBL等不同分类器集成方式对问题分类精度的影响。将TBL方法应用到分类器集成中,与目前最好的问题分类结果相比,问题分类精度提高了1.6%。最后,建立了适用的问题分类体系并对此体系进行了评价。提出了问题分类体系的评价原则:应当主要考虑分类体系集成到一个问题回答系统中时的作用,而不是仅仅考虑分类体系本身是否完整、全面。通过采用词汇、句法、语义等特征,以及分类器集成方式是一个成功的策略。使用此策略的FDUQA系统参加了国际文本检索会议(TREC13),并取得了好成绩。