论文部分内容阅读
当前,如何让计算机理解人类的自然语言,并运用人类的自然语言模拟语言交际过程,实现“人机对话”,已经成为人工智能的一个重要研究领域——自然语言处理。一旦计算机系统实现了人机对话、机器翻译、自动文摘,或能够抑扬顿挫地、带有感情地朗读文章等语言信息处理功能,计算机屏幕前枯燥的气氛必然会大大改变,计算机的应用环境将变得更加引人入胜。问答系统是集自然语言处理、知识表示、信息检索于一体的研究课题,它建立在文本检索的基础上,但又不同于传统的搜索引擎。传统的搜索引擎要求用户输入一些关键字的组合,且对于用户提交的查询只能定位出文献,用户必须依靠自己去筛选需要的有用信息;而问答系统允许用户以自然语言的形式输入一个问句,最终返回给用户的也是自然语言形式的简短而准确的答案。目前,国外已有很多科研机构参与了英文问答系统的研究,甚至已经有相对成熟的英文问答系统,但是国内参与中文问答系统的研究不多,因为中文问答系统对相关领域的研究要求更高,例如:中文词语之间没有空格;汉语的句法分析和语义理解更为困难等,这些都造成了中文问答系统的发展缓慢。本文正是对中文问答系统的一个探索,系统包括三个主要组成部分:问题处理、信息检索和答案抽取。对于用户提交的问题,首先要掌握用户的提问意图,对问题进行分类,同时确定答案需要满足的要求,并提取用户提问中的关键词及其扩展。信息检索阶段的任务是:对系统已经读入的文章,首先进行文档预处理并建立信息索引,然后用问题处理阶段提取出来的关键字及其扩展搜索出相关的段落。由于问答系统需要返回的是简短的答案,所以要将信息检索模块搜索出来的相关信息提交到答案抽取模块去提炼答案。答案抽取是问答系统最重要的部分,在答案抽取部分,本文应用了建立话语结构树的方法和计算句子语义相似度的技术,同时针对句中的事件是“抽改”类动词的情况进行了详细分析,以实现对涉及实体间抽象关系改变后的自动问答。最后本文还介绍了整个基于自然语言处理的问答系统的实现和试验结果及其评价与分析。