基于论坛数据源的QA技术的研究与实现

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:scv100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的信息获取技术,如QA技术、互联网搜索技术对互联网中的信息获取问题给出了解决方案,但是在寻求对具体问题的解答时,它们往往难以提供令人满意的服务。在本文中,我们提出了一种利用论坛中的问题问答资源来进行问题解答的新型Web应用——基于论坛数据源的QA技术。通过对现有论坛数据的收集、处理和答案抽取,我们可以构建一个结构化的问题/答案库。一旦成功实现新问题到问题/答案库中已有的相同/相似问题的映射,便可以将抽取出的相应答案返回给用户,解答用户的问题。这种模式的QA在利用互联网搜索引擎这一基础平台进行海量数据索引和查询的同时,也避免了传统QA技术的许多技术瓶颈以及准确率较差的缺点。基于论坛数据的QA技术的核心点之一在于如何从Thread(话题)类型多样的回复帖子中准确抽取出高质量的答案。我们尝试了从多分类问题和排序问题这两个不同的角度看待该问题,并分别采用条件随机场(Conditional Random Field, CRF)分类模型和Ranking SVM模型进行解决。通过类型定义、特征表示、数据标注、模型训练、实验验证等一系列过程,最终的结果表明能够对论坛数据实现高性能的答案抽取。在此基础上,我们结合搜索引擎平台实现了一个基于论坛数据的QA搜索系统——Fora系统。Fora是一个经过良好设计与实现的系统,具有完善、扩展性强的体系结构以及友好的用户界面,从数据获取、数据格式化、数据处理、答案抽取、问题映射、UI设计等问题上都针对论坛数据进行了优化。
其他文献
网络的飞速发展有目共睹,但是,在网络提供给人类大量信息与快捷方便通信的同时,网络也给人们带了许多不安因素,这些因素往往会引起巨大的经济损失。因此,网络安全变得越来越
Turbo码作为具有接近Shannon极限的纠错编码,由于其优异的性能引起国内外学者的广泛关注,一直是研究的热点课题。Turbo码之所以表现出接近Shannon限的优异性能,主要是由于它采用
自电视广播推出以来,电视技术经历了巨大的变革。特别是从本世纪90年代以后,随着电子技术,计算机技术,通信技术和网络技术的迅猛发展,电视正迅速走向数字时代,在世界范围内掀
随着计算机和互联网技术的飞速发展,多媒体将越来越成为信息的主要载体进行传播。这在提升人们生活质量的同时,也带来了新的风险,尤其是对青少年来说,使得他们接触到某一类带
随着无线通信的发展,协作通信技术( CC : Cooperative Communication)的研究引起广泛关注。它既不同于传统意义的空间分集技术,也不同于以往的无线中继技术,而是目的终端借助
视频压缩技术的发展使视频数据得到更有效的压缩,但是相应的计算复杂度也不断增加,同时现今视频内容分辨率越来越高,这造成解码视频压缩码流所需的计算量与存储空间很大。视
随着数据挖掘技术在各行各业中的不断应用和发展,其重要性己经被越来越多的人所认同,它能够利用积累的历史数据,通过建立和分析数学模型的方法找出隐藏的业务规律。客户流失分析
语音是信息时代重要的信息交互手段。随着通信和多媒体技术的发展和应用,人们对通信中语音质量的要求越来越高。然而在实际的应用环境中,语音会不同程度地受到环境噪声的干扰。
全球定位系统GPS是一个实时、全天候和全球性的星基导航定位系统。GPS相对定位是为提高定位精度而产生和发展起来的,并在此基础上逐步完善了差分GPS技术(DGPS)。这在很大程度
P2P系统把工作分散到不同的终端来完成,从而充分利用了各个终端的计算能力、存储空间、带宽等资源。与C/S网络相比,P2P的分布式与非中心化在对等计算、协同工作、文件共享、流媒