论文部分内容阅读
随着信息技术的发展,特别是互联网在全球范围内的不断普及和应用,网络资源越来越丰富,互联网已经成为人们获取信息的必要途径和重要手段。互联网上的信息呈爆炸性指数级增长,同时人们却缺少能有效获取信息的方法。如何有效地开发和利用丰富的网络信息资源,从大量的信息中快速准确地获取用户所需的信息,就成为一项极具研究和实用价值的课题。对自动问答系统的研究正是为了让人们能够更加快捷准确地获取互联网信息,进而合理有效地利用网络信息资源。
本文对当前国内外具有代表性的自动问答系统进行了收集和整理。我们发现目前大多数的自动问答系统都是围绕关键字进行处理的。基于关键字的自动问答系统简单高效,容易实现。但是其不足之处在于,基于关键字的方法把关键字看成是孤立的,没有考察关键字之间的语义信息,所以基于关键字的方法不能保证答案的正确性。
通过对大量中文语言现象的分析,本文提出了采用基于中心动词的语义角色框架来描述关键字之间的语义关系,并综合关键字以及关键字之间的语义关系进一步生成语义表示模型。语义表示模型能直接有效地描述自然语言的语义信息。围绕语义表示模型,本文将自然语言处理技术、信息检索技术和信息抽取技术等不同的处理思想和实现技术融入自动问答系统,对自动问答系统中的问题分析技术和答案抽取技术进行了研究。
在问题分析阶段,针对用户提交的自然语言形式的问题,采用自然语言处理技术和信息抽取技术,提取出问句中的关键字以及关键字关系,形成问句语义表示。在此基础上采用基于答案类型库和语义相邻规则的答案类型分析技术,提取出与问句对应的期望答案类型,将问句语义表示转换成期望答案语义表示,提交给答案抽取模块。
在答案抽取阶段,针对从信息检索引擎返回的候选文档,采用自然语言处理技术和信息抽取技术,提取出候选答案中的关键字以及关键字关系,形成候选答案语义表示。以期望答案语义表示为目标,针对候选答案语义表示,采用基于语义表示模型的转换、过滤、匹配和排序,最后把正确答案以及其所在的上下文返回给用户。
本文的主要工作包括以下几个方面:
对当前国内外具有代表性的自动问答系统进行了收集和整理,分析了现有自动问答系统的优点和缺点。在此基础上,提出了采用基于中心动词的语义角色框架来描述关键字之间的语义关系,并结合关键字信息以及关键字之间的语义关系进一步生成语义信息描述模型——语义表示模型。
对各类问句的疑问代词和答案类型进行了分析和总结,建立了疑问代词表和答案类型库。答案类型库是面向开放领域的、丰富的、层次化的和易扩充的。在疑问代词表和答案类型库的基础上,采用了语义相邻原则进行期望答案类型分析,确定与问句对应的期望答案类型。
对大量中文语言现象进行了收集和整理,分析和总结了不同语义角色框架之间的转换关系,以解决自然语言的表达多样性问题。建立了不同语义角色框架之间的语义角色转换规则库,并在此基础上提出了一套基于语义表示模型的答案抽取算法。
本文最后介绍了基于语义表示模型的自动问答原型系统SRM-QA,详细描述了SRM-QA系统的整体框架、关键数据结构以及各模块的实现细节,以验证本文所提出的各项关键技术的正确性和有效性。