基于语义表示模型的自动问答系统关键技术研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:yzq950830
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,特别是互联网在全球范围内的不断普及和应用,网络资源越来越丰富,互联网已经成为人们获取信息的必要途径和重要手段。互联网上的信息呈爆炸性指数级增长,同时人们却缺少能有效获取信息的方法。如何有效地开发和利用丰富的网络信息资源,从大量的信息中快速准确地获取用户所需的信息,就成为一项极具研究和实用价值的课题。对自动问答系统的研究正是为了让人们能够更加快捷准确地获取互联网信息,进而合理有效地利用网络信息资源。 本文对当前国内外具有代表性的自动问答系统进行了收集和整理。我们发现目前大多数的自动问答系统都是围绕关键字进行处理的。基于关键字的自动问答系统简单高效,容易实现。但是其不足之处在于,基于关键字的方法把关键字看成是孤立的,没有考察关键字之间的语义信息,所以基于关键字的方法不能保证答案的正确性。 通过对大量中文语言现象的分析,本文提出了采用基于中心动词的语义角色框架来描述关键字之间的语义关系,并综合关键字以及关键字之间的语义关系进一步生成语义表示模型。语义表示模型能直接有效地描述自然语言的语义信息。围绕语义表示模型,本文将自然语言处理技术、信息检索技术和信息抽取技术等不同的处理思想和实现技术融入自动问答系统,对自动问答系统中的问题分析技术和答案抽取技术进行了研究。 在问题分析阶段,针对用户提交的自然语言形式的问题,采用自然语言处理技术和信息抽取技术,提取出问句中的关键字以及关键字关系,形成问句语义表示。在此基础上采用基于答案类型库和语义相邻规则的答案类型分析技术,提取出与问句对应的期望答案类型,将问句语义表示转换成期望答案语义表示,提交给答案抽取模块。 在答案抽取阶段,针对从信息检索引擎返回的候选文档,采用自然语言处理技术和信息抽取技术,提取出候选答案中的关键字以及关键字关系,形成候选答案语义表示。以期望答案语义表示为目标,针对候选答案语义表示,采用基于语义表示模型的转换、过滤、匹配和排序,最后把正确答案以及其所在的上下文返回给用户。 本文的主要工作包括以下几个方面: 对当前国内外具有代表性的自动问答系统进行了收集和整理,分析了现有自动问答系统的优点和缺点。在此基础上,提出了采用基于中心动词的语义角色框架来描述关键字之间的语义关系,并结合关键字信息以及关键字之间的语义关系进一步生成语义信息描述模型——语义表示模型。 对各类问句的疑问代词和答案类型进行了分析和总结,建立了疑问代词表和答案类型库。答案类型库是面向开放领域的、丰富的、层次化的和易扩充的。在疑问代词表和答案类型库的基础上,采用了语义相邻原则进行期望答案类型分析,确定与问句对应的期望答案类型。 对大量中文语言现象进行了收集和整理,分析和总结了不同语义角色框架之间的转换关系,以解决自然语言的表达多样性问题。建立了不同语义角色框架之间的语义角色转换规则库,并在此基础上提出了一套基于语义表示模型的答案抽取算法。 本文最后介绍了基于语义表示模型的自动问答原型系统SRM-QA,详细描述了SRM-QA系统的整体框架、关键数据结构以及各模块的实现细节,以验证本文所提出的各项关键技术的正确性和有效性。
其他文献
随着以Internet为代表的全球信息化浪潮的来临,网络互连已经渗透到社会生活的方方面面。一方面,网络互连带来了便捷的资源共享、信息交流;另一方面,网络互连也带来了入侵、攻击、
本文结合“采研院办公自动化系统”课题,研究基于Web的办公自动化系统,概括性地阐述了以工作流技术为主的通用OA的设计思想,OA发展所经历的三个阶段以及工作流的概念和技术,对当
随着计算机和网络技术的迅猛发展和推广应用,基于C/S模式的管理信息系统逐渐暴露出它的缺点:开发成本高,移植困难,维护复杂,升级麻烦等等。而基于浏览器/Web服务器/数据库服务器的
计算机网络的产生,为人们提供了无比优越的手段来共享信息和交流经验,特别是在Internet产生以后,网络从一定程度上改变了人们的生活。但是随着人们需求的增长和网络的普及,人们对
智能文档技术是政府和企业办公自动化中安全电子文档技术的最新研究课题和未来发展趋势。它的出现使得数据从静态孤立的点变成了动态连续的流。本文分析了Adobe公司和微软提
随着计算机技术、通信技术以及自动化技术的长足发展,办公自动化(OfficeAutomation简称OA)的应用逐渐为人们所重视。 本文首先对工作流技术进行了探讨。从工作流管理技术出
随着国内外市场的日渐扩大,国内软件产业近年来取得了持续高速发展,占国内软件企业大多数的中小型软件企业,在良好的发展环境下,技术水平和管理水平上都有了较大的提高。但是,中小
为了应对蜂窝网络服务提供商(CSP)面临的严重的蜂窝网络流量不足的问题,将部分蜂窝网络流量通过已有的代替无线网络,例如微蜂窝和WiFi网络,是一种很有前景的方案。现有的大多
流媒体是指多媒体数据流在网络上一边传输一边播放的一种多媒体通信服务。它涉及计算技术、多媒体压缩技术、存储技术和高速网络技术等。广泛用于远程教育、远程医疗、视频点
论文首先综述了基于移动代理的入侵检测系统;然后在总结入侵检测系统的形式化开发技术相关研究工作的基础上提出了一种新的系统形式化开发技术;最后说明了在基于移动代理的IDS