基于在线论坛的问答对识别研究与问答系统实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:highbird51426
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人们对快速、准确地获取信息的需求,问答系统以其能用准确、简洁的自然语言回答用户的问题而备受研究人员的关注。随着Internet技术的发展,互联网上存在着大量的在线论坛,这些论坛包含着大量的问答对资源。这些问答对具有广泛性和实时性,因此论坛问答对资源的抽取具有重要的实际意义与研究价值。由于在线论坛中提问者和回答者均发帖比较随意,因此论坛中问答对的抽取存在很大困难,主要有以下几方面:1.论坛中提问比较随意,很多问题与传统的提问有较大的区别;2.帖子存在话题转移或交织;3.帖子文本长度较短,很难准确抽取有效的语言特征。针对这些难点,本文研究了论坛问答对的抽取技术,主要包含以下内容:第一,本文分析了问题的答案来源对问答系统技术路线的影响,提出了一种基于问答对识别的问答系统技术方案,并分析了该技术方案中存在的问题和难点。第二,针对在线论坛中的提问与传统的问句有较大的差异,本文着重研究了在线论坛中问句的分类,并研究了文本特征和N-gram特征对于问题识别的有效性。实验结果表明,文本特征和N-gram特征的融合能够有效识别出在线论坛中的问题。第三,针对帖子存在话题转移和交织的问题,提出了一种基于段落划分的答案识别算法。同时,详细研究了几种文本特征和非文本特征对于弥补帖子语言特征过少的有效性。研究表明,段落划分能够有效地缩小问题答案的搜寻范围,而基于段落划分的融合了文本、非文本特征的答案识别算法较目前的方法有了较大的提高。最后,设计并实现了基于问答对识别的问答系统,该系统能够快速、准确地返回给用户答案,具有良好的应用效果和广阔的前景。
其他文献
随着多媒体技术和网络技术的迅速发展与广泛应用,对多媒体数字产品的版权保护已成为迫切需要解决的问题。数字水印认证技则是一种有效的解决方法。本文主要针对数字图像水印
随着信息技术的发展,越来越多的图像和视频出现在几们的生活中和互联网上。而且,现有的虚拟现实技术和自由视点视频技术等,使几们越来越倾向于观看数字化的三维场景。于是,将已有
随着虚拟仿真技术的广泛应用,静态的建筑场景仿真已经不能满足人们的需求。为了提高与现实的契合程度,虚拟仿真平台中需要运动人群的参与。因此,人群仿真技术得到了广泛研究
视频跟踪技术具有广阔的应用前景,可应用于军用和民用监控等多个领域。本文以粒子滤波理论为基础,研究和实现了基于颜色特征的粒子滤波跟踪算法。并在该基本粒子滤波算法的基
无线局域网(WLAN)的迅速发展使得网络设备可以方便快速地通过无线方式接入到网络当中。OFDM作为WLAN的核心技术被应用,提高了WLAN的性能。无线信号的传输受到周围环境影响,这些
口腔颌面外科手术,尤其是正颌外科手术,主要针对面部骨性形态异常的患者。颌面部属于人体的显露部位,正颌外科手术的手术结果将直接影响患者的面部美学效果,对患者的日常生活至关
近年来,心脏病的防治已成为当前医疗保健的一项重要内容。心脏病具有难以预测,致残致死率高的特点。很多情况下,需要医院能够长期地对病人的心脏状况进行实时监测。普适计算
基于位置的服务(Location-Based Services, LBS)正在广泛应用于工作和生活的多个方面。作为实现LBS的关键前提,室内定位技术成为了学术界和工业界近十年来共同的研究热点。由
虚拟企业的概念是为了适应市场经济的快速发展和企业竞争环境的快速变化而提出的,它是由不同的企业借助信息网络的支持,为了快速响应市场机遇,对企业的核心技术、核心能力及
随着万维网(World Wide Web)上越来越多的多媒体数据的出现,从它们中挖掘信息在互联网应用技术中显得越来越重要。注意到互联网上目前已经存在着大量带标注的文本信息,考虑到