论文部分内容阅读
随着互联网的普及,互联网上的信息越来越多,为人们提供了丰富的信息资源。而另一方面,人们却很难在杂乱无章的网络中快速、准确地获得自己想要的信息。虽然现在互联网上有很多搜索引擎可以帮助人们搜索自己想要的信息,但是目前的搜索引擎还有很多缺点,并不能满足人们方便、快速、准确地获取信息的需要。自动问答技术正是为了满足人们的这种愿望而发展起来的。搜索引擎,要求输入的是一些关键字的组合,而自动问答系统允许用户输入一个问句;搜索引擎返回给用户的是一堆相关的网页,而自动问答系统返回给用户的是一个简短而准确的答案。这样用户就可以通过自动问答系统方便、快速、准确地获得自己想要的信息。自动问答技术是自然语言处理领域中一个非常热门的研究方向,它综合运用了各种自然语言处理技术。目前,国内外有很多的科研机构参与了英文自动问答技术的研究,甚至已经有相对成熟的英文自动问答系统,但是参与中文自动问答技术研究的科研机构并不是很多,而且基本没有成型的中文自动问答系统。本文正是对中文自动问答技术研究的一个探索。本文中提出的中文自动问答系统称为“虚拟信息顾问”(Virtual InformationConsultant),包括五个主要组成部分:问题理解、信息检索、信息处理、答案抽取、FAQ 模块五个子系统。问题理解阶段是自动问答系统执行的开始,分析的结果对后面的处理,以至找到问题的正确答案都有很大的影响。同时它也是智能咨询系统,机器对话等研究的重要方面。本文充分结合了汉语语言的特点以及计算语言学的技术,对自动问答系统中问题理解部分进行了深入的分析。在问句分析时,不仅更加细化了对疑问词的分类,同时提出了问题标准型的方法,使系统能够对表达形式不同,但语义相同的问句采用相同的分析算法,提高了系统处理多种表达形式问句的能力。通过识别问句中主题词的方法,确定搜索的知识源,明确和缩小了搜索范围,减少了对无用信息的搜索。同时,本文结合问题理解模块的特点提出了后一阶段——信息检索的设计方法。最后针对问题理解阶段采用的主要方法进行了测试及评价,验证了本文所提出的方法的可行性和可靠性。