论文部分内容阅读
社区问答系统目前已成为一项新兴的Web 2.0服务。不同于传统的自动问答系统,人们在这类系统中提出自己的问题后,其他的用户可以根据自身经验来回答相应的问题。在经过一段时间后,提问者可以在所有别的用户提供的答案中选择一个答案作为最佳答案,或者由大众投票来选取最佳答案。然而,由于该过程完全是通过人工操作,没有机器的自动评判,使得在这类系统中存在回答质量参差不齐,提问者随意选择最佳答案的现象。这不仅导致了社区问答系统本身质量的下降,也给其他系统对其进行重用如搜索系统利用社区问答系统中的<问题,回答>对来作为精确知识库带来困难。因此,我们提出了针对社区问答系统中最佳回答机制的研究课题。目前的社区问答系统中的一个机制是一个问题只能有一个最佳回答。而通过我们的观察发现,并不是所有的问题都只有一个最佳回答,有许多问题都可能有很多备选的回答。因此,对于这个问题,我们提出了采用回答摘要技术的方法,通过对问题的所有回答进行摘要来生成最佳回答的备选,这使得问题能够有一个具有全面回答的摘要,不仅弥补了现行系统的不足,也对别的系统对社区问答系统上庞大知识库的重用做了很大的贡献。具体来讲,本文首先对于社区问答系统上的问题和答案进行了深入的研究。我们通过对答案中最佳答案是否可重用标准的分类以及对问题意图的分类后发现,超过78%的问题的最佳答案是在被询问到相似问题时可以重用的,而这其中不超过48%的问题只有一个最佳答案。开放型问题和意见型问题中有多个最佳答案的问题所占的比例最大。接着,本文对于开放型问题和意见型问题这两类在目前的最佳回答机制下对于问题/答案对的重用存在很大改进余地的问题提出了有针对性的回答摘要算法。对于开放型问题,本文提出了回答聚类算法和聚类标签算法;对于意见型问题中的情感型问题,本文提出了情感极性判断算法;对于意见型问题中的列表型问题,本文提出了句子聚类算法。本文同时提出了信息内容和可读性两个标准。并在实验中表明本文所提出的针对问题类型的摘要算法对于原始的最佳回答有着很大的提高。