论文部分内容阅读
问答系统是新一代的智能搜索引擎,它允许用户以自然语言的方式提问,并向用户返回答案。限定域问答系统是指针对特定领域,如教育、银行、法律、旅游等专业领域的问答系统,其领域范围有限,具有更好的应用效果和较强的实用价值,目前已成为研究的热点。
本文以《现代操作系统》课程的领域知识为例,针对限定域中文问答系统的关键技术(包括FAQ中问句相似度计算、问句分类以及答案抽取策略等)进行了一定的研究,引入潜在语义分析、支持向量机等技术和方法来提高问答系统的性能。本文的主要工作成果有以下几点:
1.根据研究的需要,手工收集并构造出常用问句集、同义词词库和专业术语词库,并给出本文研究中使用的中文问句分词方法,使用倒排索引表构建出候选问句集合。在分析目前已有的研究方法和领域知识特点的基础上,设计了一种具有较好性能的新的组合式问句相似度计算方法。
2.依据收集到的《现代操作系统》课程的问句构建了领域问句集,并对问句进行特点分析,定义出问句类型。根据领域问句的特点,制定了问句特征的提取策略和SVM编码策略。研究了多种目前常用的问句分类算法,提出了基于LSA和改进SVM多类分类器的问句分类方法,并设计了一组对比实验来检测该方法的性能。
3.将潜在语义分析理论引入到限定领域问答系统的候选答案集的构建中,以消除词的同义和多义现象造成的漏提和错提问题。利用设计的组合式语句相似度计算方法并结合问句焦点和问句类型等信息,设计出适合该限定领域的答案抽取策略,并进行实验测试。