基于Web的中文开放域问答系统研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:superyoumyhao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及,互联网上的信息越来越多,为人们提供了丰富的信息资源。然而,人们却很难在杂乱无章的网络中快速、准确地获得自己想要的信息。虽然现在互联网上有很多搜索引擎可以帮助人们搜索自己想要的信息,但是目前的搜索引擎还有很多缺点,并不能满足人们方便、快速、准确地获取信息的需要。自动问答技术正是为了满足人们的这种愿望而发展起来的。搜索引擎要求输入的是一些关键字的组合,而自动问答系统允许用户输入一个问句;搜索引擎返回给用户的是一堆相关的网页,而自动问答系统返回给用户的是一个简洁而准确的答案。这样用户就可以通过自动问答系统方便、快速、准确地获得自己想要的信息。 问答系统是信息检索分支,属于精确检索,是国外信息技术的研究热点,但在国内还处于起步阶段。信息检索是信息社会的重要特征,各种搜索引擎对人们帮助很大,但是如何使计算机更好地理解人的检索需求,如何获得精确检索结果,目前还处于探索阶段,问答系统正是这个方面的重要研究内容。本文系统地介绍了问答系统的研究内容及现状,对中文问答系统的问句处理、信息检索和信息抽取等相关关键技术进行了较为深入的分析与探讨,实质性工作和创新点如下: (1)研究中文问答系统的理论框架和系统结构,从总体上对问答系统形成一个较为清晰的认识,对其中的研究重点和难点进行具体的分析。 (2)提出了问句句法标注语料库与统计学习算法相结合的问句处理方法。建立一个小规模的问句句法标注语料库,在此基础上,以句法分析的自然语言处理技术进行问句理解,利用多分类支持向量机算法实现问题分类。问句理解是问答系统的首要过程,问题分类是问句理解的主要组成部分,它在问答系统中具有非常重要的作用,因为问题类型有助于在文档中定位和抽取答案。问题分类的目标是基于预期的答案类型,准确地分类问句。本文提出依存关系规则与统计方法相结合,实现了基于依存关系的中文问句理解与问题分类机制,支持向量机结合依存关系的特征抽取方法,获得较高问题分类正确率。 (3)利用通用的搜索引擎完成关键词信息检索。信息检索的任务是根据关键词在语料库中查找相关的文档,基于Web的问答式信息检索系统以互联网的海量信息为语料库,可以使用通用的搜索引擎完成关键词信息检索功能。信息检索功能主要包括搜索引擎、网页获取、网页分析和信息过滤。 (4)提出了基于规则与基于统计相结合的命名实体识别方法,并利用命名实体识别方法实现简单答案抽取。本文根据规则抽取各类命名实体特征,然后利用多分类支持向量机实现中文命名实体识别,其中重点实现了中文人名识别。 (5)提出了基于命名实体识别与语义依存关系相结合实现答案抽取。利用语义依存关系语料库与信息抽取方法相结合实现答案抽取,对相关文本进行汉语分词、词性标注、命名实体识别和语义依存关系分析等实现答案抽取。 (6)基于前面的理论分析研究,本文最后设计了一个基于Web的中文开放式问答原型系统——WlebQuestioAnswer。
其他文献
临机决策是一种常见而且重要的决策形式,本文以突发公共事件的应急决策为背景研究临机决策的基本原理及实现机制,其中重点研究如何基于语义网技术为面向突发意外事件的临机决策
基于在线办公套件WebOffice的开发实践,论文对文档格式化的概念、模型、流程和系统框架结构进行研究,重点实现了文本断行与文档分页两个关键部分,取得了五个方面的主要成果:  
学位
随着市场竞争的越来越激烈,商业环境中的信息越来越密集,未来企业之间的竞争主要是综合智能上的竞争,必须提高企业经营活动中的智能水平。传统的操作型信息管理系统已经难以满足
网格是利用互联网把地理上广泛分布的各种资源(包括计算资源、存储资源、带宽资源、软件资源、数据资源、信息资源、知识资源等)连成一个逻辑整体,就像一台超级计算机一样,为用
软件质量问题由来已久,软件测试是在软件开发过程中保证软件质量的一项重要活动。在软件测试中,先要根据需求确定测试的目标。再根据测试目标来构造测试用例。这组测试用例的数
支持向量机建立在统计学习理论基础上,应用VC维理论和结构风险最小化原理,借助于最优化方法等,在很大程度上克服了传统机器学习面临的维数灾难,局部最小点以及过学习等难以克服的
功能基因组学和蛋白质组学之后,现代分子生物学的一个新的门类RNA组学(RNAomics)正在逐步形成和发展壮大。近二十年来,生命科学中核糖核酸(Ribonucleic Acid,RNA)研究领域取得了
本文依托于中科院沈阳自动化研究所自动化装备研究室的项目——PASSIM卷接机组改造。PASSIM卷接机组是从英国MOLINS公司引进的设备,限于当时的硬件设计技术、芯片封装技术和通
二十一世纪数字化浪潮正在席卷全球。多媒体应用的深入和发展对图像压缩性能、处理灵活性等方面提出了进一步的要求,要求开发出复杂度低、速度快、压缩比高和扩展性好的图像压
目前,大多数商业系统通常都采用面向对象与关系数据库相结合的方式,这会引出对象模型和关系模型之间的不匹配问题。对象模型基于耦合、内聚和封装等软件工程的概念,而关系模型则