基于监督学习的问答对提取方法研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:wq52131
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的迅速发展,互联网已经成为全球最大、最广泛使用的信息库,成为人们进行信息交流和处理的最有效平台。互联网上的数据是海量的,而且本身还以每天极高的速度增长,如何有效处理和使用这些数据成为目前热点的课题之一。 对于如何利用互联网海量的数据,目前主要有两个研究方向,即信息检索和问答系统。在信息检索领域,搜索引擎很好的整合了互联网上的数据,满足了人们日常搜寻信息的需要。在问答系统领域,大多使用语义相似度的方法来提取问题对应的答案,目前仍停留在研究阶段。 本文利用监督学习的方法,对互联网上存在海量信息中的问题和答案的相关知识进行提取,并且与现有的一些方法进行对比和分析。本文研究工作的主要内容如下: 1.研究如何从文档中提取问题。针对问题和具体的问句的定义,本文提出了使用多种问题的特征,利用监督学习的方法结合支持向量机,对文档中存在的问题进行提取的方法。 2.研究如何通过特定问题来提取对应的答案。现有的方法主要是基于一些简单而且非智能的模式,通过分析它们的不足,针对答案的定义,本文提出了使用文本特征、非文本特征和相似度等多种特征,利用监督学习的方法结合支持向量机,对特定问题的答案进行提取的方法。 3.研究如何直接从文档中提取问题和答案。通过分析问题和答案之间的关系,本文提出了使用文档之间的关系(各种相似度)作为特征,利用监督学习的方法结合支持向量机,同时从文档中提取问题和答案的方法。 最后,通过一系列的对比实验,验证了本文的研究方法在所涉及的研究领域内准确性有明显的提高。另外,本文还利用标准数据集,搭建了简单的示例检索系统来展示本文所提出的内容和方法的可用性和实际的运行效果。
其他文献
自从1994年美国计算机科学家阿德勒曼在《科学》杂志上公布了生物计算机的理论,并成功运用生物计算机解决了一个有向哈密尔顿路径问题后,DNA计算以其海量存储和并行运算能力,
结构化P2P系统中资源处理是当前面临的重要问题,覆盖网络的拓扑结构是解决这一问题的重要途径。因此,为网络设计合适的拓扑结构是非常重要的。众所周知,构造P2P网络拓扑有两个重
在计算机图形学和数字娱乐领域,手绘是一种重要的艺术呈现方式,也是人们传达思想的一种常用方式。在三维形状的创建和生成中,基于手绘的建模是一个热门的研究方向。手绘建模
近年来不断快速增长的因特网流量要求越来越大的网络容量,并且最好能够支持区分服务。波分复用(WDM)技术在这方面有很大的潜力。由Chunming Qiao和J.S.Turner等人提出的光突
无线传感器网络是由监测区域内的节点以自组织方式构成的无线通信网络。网络是以数据为中心的,节点通过相互协作来感知各种环境信息(例如温度、湿度、污染物浓度、压力等),并
NPMS(Network Performance Management System)网络性能管理系统通过对网络系统实时的监测和管理,提供了对网络系统全方位和深入的性能分析、准确的网络故障定位和主动性的网
当今电子商务市场发展非常迅速,形成了一个潜力巨大的市场,Internet上信息量和商务量爆炸式增长、网络环境日益复杂,以及产品供应商的不确定性都迫切地需要一种能够主动地、
高校教育对一个国家的生产力有着直接的影响,而一个国家的生产力又决定了国民生活标准和一个国家在全球经济中的竞争力。为了达到更高的教育目标,信息通讯技术必须得到最大程
概率论极限理论是概率论得主要分支之一,也是概率论的其它分支和数理统计得重要基础.而独立随机变量得概率极限理论又是概率论极限理论中教经典理论之一,在20世纪三四十年代已
入侵检测技术是保障网络安全的一个重要手段。随着网络规模的扩大和攻击方式的分布化,分布式入侵检测系统的研究成为热点。虽已有一些分布式入侵检测产品问世,但它们仍存在单