论文部分内容阅读
近年来,随着Web2.0的飞速发展,社区问答系统逐渐成为一种非常流行而实用的互联网应用。与传统问答系统不同的是,在社区问答系统中,用户不但可以提问和回答任何领域、任何类型的问题,而且还可以对其他用户的回答做出评价和投票,甚至还可以直接搜索系统所积累的历史问题答案库中的相似问题,极大地丰富和满足了用户的信息需求。因此,对社区问答系统的研究,无论是从推动学术界和产业界的发展来看,还是从满足用户的实际需求来看,都具有十分重要的意义。 本文以“满足用户复杂多样的信息需求”以及“提高社区问答系统的服务性能”为总目标,从挖掘社区问答系统中所积累的“宝贵的问题答案库”以及“活跃的社区用户”两类资源来分别提高社区问答系统中的“检索”和“会话”两大基本功能入手,针对社区问答系统中“相似问题检索”、“问题路由”以及“专家推荐”三个核心研究问题、四项关键技术展开深入研究。 本文的主要贡献如下: 基于问题-答案话题模型的相似问题检索社区问答系统中相似问题检索的任务就是从问题答案库中检索出与查询问题在语义上相同或相似的问题答案对并将其返回给用户。该任务最大的挑战就是解决查询问题与候选历史问题之间的词汇鸿沟问题。本文基于“一个问题及其对应的答案具有共同的话题分布”的基本假设下提出了一个新的问题-答案话题模型来对互为平行的问题-答案对之间的关系进行建模,从而从互为平行的历史问题-答案对中有效地学习潜性语义信息来缓解相似问题检索中的词汇鸿沟问题。实验结果表明使用本文所提出的问题-答案话题模型可以比使用传统的话题模型取得更好的检索性能。此外,将问题-答案话题模型与当前最好的基于翻译的语言模型进行线性插值后可以进一步非常显著地提升相似问题检索的性能。 基于融入类别信息的语言模型的相似问题检索作为传统信息检索的一个特殊应用,相似问题检索与传统信息检索的一个不同之处在于社区问答系统中的历史问题是按照人工设定好的层次类别体系进行组织的。本文在语言模型建模的框架下提出了一种新的基于问题类别信息的方法来提高相似问题检索的性能。特别地,本文将词项在不同类别中具有不同的词项权重看作是词项与类别相关的先验知识,并以Dirichlet超参的方式来对一元语言模型中的词项参数进行加权,从而得到一个新的“融入类别信息的语言模型”。实验结果表明本文所提出的“融入类别信息的语言模型”的方法比之前的“二级平滑”和“全局相关度+局部相关度”的方法具有非常显著的性能提升。 基于排序学习的问题路由社区问答系统中问题路由的任务就是将提问者新提交的问题推送给潜在的对该问题有兴趣并最有可能提供答案的回答用户来回答,从而使得新提交问题能够在较短的时间内得到回答。本文引入了存在于每个社区问答会话页面中的关于提问者asker和回答者集合answerers之间的内在关系来刻画用户对问题q的专业知识程度的内在标签或者内在排序,从而提出了一种基于排序学习思想的总体框架来进行社区问答中的问题路由。实验结果表明本文所提出的两种学习方法相比传统的查询似然语言模型(QLLM)以及当前最好的基于LDA的模型(LDA)可以取得非常显著的性能提升。 基于排序学习的专家推荐社区问答系统中专家推荐任务就是从众多的专家用户中找出能够对提问者新提交问题提供比较高质量、完整并且可信的答案的用户,并且将新提交问题推送给这些排名靠前的专家用户去回答,从而使得提问者能够得到满意的答案。专家推荐与问题路由明显不同的是前者关注于专家用户以强调答案的质量,而后者则关注于任意潜在回答者以强调回答的时效性。同样,本文提出了一种基于排序学习思想的总体框架来进行社区问答中的专家推荐。实验结果表明本文所提出的两种学习方法相比传统的查询似然语言模型(QLLM)以及当前最好的将LDA与QLLM进行融合的模型(LDALM)可以取得非常显著的性能提升。