基于Web的中文开放域问答系统研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户：superyoumyhao

【摘要】

：

随着互联网的普及，互联网上的信息越来越多，为人们提供了丰富的信息资源。然而，人们却很难在杂乱无章的网络中快速、准确地获得自己想要的信息。虽然现在互联网上有很多搜索引擎

【作者】

：

林旭东

【机构】

：

华南理工大学

【出处】

：

华南理工大学

【发表日期】

：

2007年期

【关键词】

：

信息检索信息检索问答系统问答系统搜索引擎搜索引擎信息过滤信息过滤信息抽取信息抽取答案抽取答案抽取关键词关键词

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的普及，互联网上的信息越来越多，为人们提供了丰富的信息资源。然而，人们却很难在杂乱无章的网络中快速、准确地获得自己想要的信息。虽然现在互联网上有很多搜索引擎可以帮助人们搜索自己想要的信息，但是目前的搜索引擎还有很多缺点，并不能满足人们方便、快速、准确地获取信息的需要。自动问答技术正是为了满足人们的这种愿望而发展起来的。搜索引擎要求输入的是一些关键字的组合，而自动问答系统允许用户输入一个问句；搜索引擎返回给用户的是一堆相关的网页，而自动问答系统返回给用户的是一个简洁而准确的答案。这样用户就可以通过自动问答系统方便、快速、准确地获得自己想要的信息。问答系统是信息检索分支，属于精确检索，是国外信息技术的研究热点，但在国内还处于起步阶段。信息检索是信息社会的重要特征，各种搜索引擎对人们帮助很大，但是如何使计算机更好地理解人的检索需求，如何获得精确检索结果，目前还处于探索阶段，问答系统正是这个方面的重要研究内容。本文系统地介绍了问答系统的研究内容及现状，对中文问答系统的问句处理、信息检索和信息抽取等相关关键技术进行了较为深入的分析与探讨，实质性工作和创新点如下： (1)研究中文问答系统的理论框架和系统结构，从总体上对问答系统形成一个较为清晰的认识，对其中的研究重点和难点进行具体的分析。 (2)提出了问句句法标注语料库与统计学习算法相结合的问句处理方法。建立一个小规模的问句句法标注语料库，在此基础上，以句法分析的自然语言处理技术进行问句理解，利用多分类支持向量机算法实现问题分类。问句理解是问答系统的首要过程，问题分类是问句理解的主要组成部分，它在问答系统中具有非常重要的作用，因为问题类型有助于在文档中定位和抽取答案。问题分类的目标是基于预期的答案类型，准确地分类问句。本文提出依存关系规则与统计方法相结合，实现了基于依存关系的中文问句理解与问题分类机制，支持向量机结合依存关系的特征抽取方法，获得较高问题分类正确率。 (3)利用通用的搜索引擎完成关键词信息检索。信息检索的任务是根据关键词在语料库中查找相关的文档，基于Web的问答式信息检索系统以互联网的海量信息为语料库，可以使用通用的搜索引擎完成关键词信息检索功能。信息检索功能主要包括搜索引擎、网页获取、网页分析和信息过滤。 (4)提出了基于规则与基于统计相结合的命名实体识别方法，并利用命名实体识别方法实现简单答案抽取。本文根据规则抽取各类命名实体特征，然后利用多分类支持向量机实现中文命名实体识别，其中重点实现了中文人名识别。 (5)提出了基于命名实体识别与语义依存关系相结合实现答案抽取。利用语义依存关系语料库与信息抽取方法相结合实现答案抽取，对相关文本进行汉语分词、词性标注、命名实体识别和语义依存关系分析等实现答案抽取。 (6)基于前面的理论分析研究，本文最后设计了一个基于Web的中文开放式问答原型系统——WlebQuestioAnswer。

其他文献

基于语义网的应急临机决策若干关键问题研究

临机决策是一种常见而且重要的决策形式，本文以突发公共事件的应急决策为背景研究临机决策的基本原理及实现机制，其中重点研究如何基于语义网技术为面向突发意外事件的临机决策

学位

突发公共事件临机决策语义网空间本体本体技术

WebOffice中文档格式化的研究

基于在线办公套件WebOffice的开发实践，论文对文档格式化的概念、模型、流程和系统框架结构进行研究，重点实现了文本断行与文档分页两个关键部分，取得了五个方面的主要成果：　　

学位

文档格式

商务智能平台中任务调度机制的研究与开发

随着市场竞争的越来越激烈，商业环境中的信息越来越密集，未来企业之间的竞争主要是综合智能上的竞争，必须提高企业经营活动中的智能水平。传统的操作型信息管理系统已经难以满足

学位

商务智能工作流技术任务调度

基于网格套件GlobusToolKit4.0的数据处理系统设计

网格是利用互联网把地理上广泛分布的各种资源(包括计算资源、存储资源、带宽资源、软件资源、数据资源、信息资源、知识资源等)连成一个逻辑整体，就像一台超级计算机一样，为用

学位

网格计算数据处理系统JAVA语言网格服务架构

基于Junit框架的自动测试技术研究与工具实现

软件质量问题由来已久，软件测试是在软件开发过程中保证软件质量的一项重要活动。在软件测试中，先要根据需求确定测试的目标。再根据测试目标来构造测试用例。这组测试用例的数

学位

Junit框架软件测试自动测试技术工具软件

支持向量机多分类方法的研究

支持向量机建立在统计学习理论基础上，应用VC维理论和结构风险最小化原理，借助于最优化方法等，在很大程度上克服了传统机器学习面临的维数灾难，局部最小点以及过学习等难以克服的

学位

支持向量机统计学习理论机器学习信息熵分类方法

面向RNA二级结构预测的智能群体算法的理论与应用研究

功能基因组学和蛋白质组学之后，现代分子生物学的一个新的门类RNA组学(RNAomics)正在逐步形成和发展壮大。近二十年来，生命科学中核糖核酸(Ribonucleic Acid，RNA)研究领域取得了

学位

核糖核酸核糖核酸二级结构预测二级结构预测智能群体算法智能群体算法迭代算法迭代算法智能算法智能算法蚁群算法蚁群算法微粒群算法微粒群算法免疫算法免疫

烟支综合质量检测系统装置的开发应用

本文依托于中科院沈阳自动化研究所自动化装备研究室的项目——PASSIM卷接机组改造。PASSIM卷接机组是从英国MOLINS公司引进的设备，限于当时的硬件设计技术、芯片封装技术和通

学位

烟支质量检测卷接机组硬件设计芯片封装

快速小波图像编解码算法及其应用研究

二十一世纪数字化浪潮正在席卷全球。多媒体应用的深入和发展对图像压缩性能、处理灵活性等方面提出了进一步的要求，要求开发出复杂度低、速度快、压缩比高和扩展性好的图像压

学位

图像编码图像编码小波压缩图像小波压缩图像编码算法编码算法压缩编码压缩编码

基于J2EE的数据持久层研究

目前，大多数商业系统通常都采用面向对象与关系数据库相结合的方式，这会引出对象模型和关系模型之间的不匹配问题。对象模型基于耦合、内聚和封装等软件工程的概念，而关系模型则

学位

DAO模式J2EE技术面向对象技术关系数据库关系模型数据持久层

基于Web的中文开放域问答系统研究

与本文相关的学术论文