论文部分内容阅读
随着互联网的普及,互联网上的信息越来越多,为人们提供了丰富的信息资源。然而,人们却很难在杂乱无章的网络中快速、准确地获得自己想要的信息。虽然现在互联网上有很多搜索引擎可以帮助人们搜索自己想要的信息,但是目前的搜索引擎还有很多缺点,并不能满足人们方便、快速、准确地获取信息的需要。自动问答技术正是为了满足人们的这种愿望而发展起来的。搜索引擎要求输入的是一些关键字的组合,而自动问答系统允许用户输入一个问句;搜索引擎返回给用户的是一堆相关的网页,而自动问答系统返回给用户的是一个简洁而准确的答案。这样用户就可以通过自动问答系统方便、快速、准确地获得自己想要的信息。
问答系统是信息检索分支,属于精确检索,是国外信息技术的研究热点,但在国内还处于起步阶段。信息检索是信息社会的重要特征,各种搜索引擎对人们帮助很大,但是如何使计算机更好地理解人的检索需求,如何获得精确检索结果,目前还处于探索阶段,问答系统正是这个方面的重要研究内容。本文系统地介绍了问答系统的研究内容及现状,对中文问答系统的问句处理、信息检索和信息抽取等相关关键技术进行了较为深入的分析与探讨,实质性工作和创新点如下:
(1)研究中文问答系统的理论框架和系统结构,从总体上对问答系统形成一个较为清晰的认识,对其中的研究重点和难点进行具体的分析。
(2)提出了问句句法标注语料库与统计学习算法相结合的问句处理方法。建立一个小规模的问句句法标注语料库,在此基础上,以句法分析的自然语言处理技术进行问句理解,利用多分类支持向量机算法实现问题分类。问句理解是问答系统的首要过程,问题分类是问句理解的主要组成部分,它在问答系统中具有非常重要的作用,因为问题类型有助于在文档中定位和抽取答案。问题分类的目标是基于预期的答案类型,准确地分类问句。本文提出依存关系规则与统计方法相结合,实现了基于依存关系的中文问句理解与问题分类机制,支持向量机结合依存关系的特征抽取方法,获得较高问题分类正确率。
(3)利用通用的搜索引擎完成关键词信息检索。信息检索的任务是根据关键词在语料库中查找相关的文档,基于Web的问答式信息检索系统以互联网的海量信息为语料库,可以使用通用的搜索引擎完成关键词信息检索功能。信息检索功能主要包括搜索引擎、网页获取、网页分析和信息过滤。
(4)提出了基于规则与基于统计相结合的命名实体识别方法,并利用命名实体识别方法实现简单答案抽取。本文根据规则抽取各类命名实体特征,然后利用多分类支持向量机实现中文命名实体识别,其中重点实现了中文人名识别。
(5)提出了基于命名实体识别与语义依存关系相结合实现答案抽取。利用语义依存关系语料库与信息抽取方法相结合实现答案抽取,对相关文本进行汉语分词、词性标注、命名实体识别和语义依存关系分析等实现答案抽取。
(6)基于前面的理论分析研究,本文最后设计了一个基于Web的中文开放式问答原型系统——WlebQuestioAnswer。