论文部分内容阅读
随着web2.0时代的不断发展,各种社区问答平台应运而生,由于社区问答平台的开放性和知识共享性,越来越多的人喜欢把自己的问题和答案通过问答平台分享给大家。如今,社区问答平台已成为广大用户获取信息和知识共享的重要媒介。诸如百度知道、知乎、Yahoo!Answers等问答社区平台每天都会发布大量不同主题的问题,这就要求问答社区平台必须拥有充足的数据资源和强大的问题解决机制,以便帮助用户快速高效的解决问题。然而,随着问答社区平台用户量的不断增多,平台数据量迅速扩张,导致海量的平台信息会迅速覆盖提问者提出的问题,从而造成提问者不得不长时间等待其他用户的回答。与此同时,再加上大量垃圾信息和低质量答案信息的干扰,导致用户很难快速准确的获取高质量的问题答案,为用户获取答案信息增加了巨大的压力。针对以上存在的问题,本文系统的研究了问答社区中的专家发现方法,针对新提出的问题,找出相关领域能力较强的专家用户,并将专家用户推荐给提问者。主要工作包括以下几个方面:(1)基于用户历史问答信息,本文采用了主题专业水平模型TPLM(topic professional level model),该模型综合利用帖子的标签信息、投票信息和时间信息对用户进行建模。首先在用户文档中加入标签信息,利用LDA(Latent Dirichlet Allocation)模型获取用户的主题概率分布,然后在此基础上进一步利用帖子的投票信息对专业能力进行建模,评估用户在各个主题下的专业能力强弱,从而更好的挖掘相关主题下专业能力较强的专家用户。(2)基于主题专业水平模型的计算结果,本文采用TPLMRank方法(TPML与PageRank的融合方法)对用户权威度进行评估。该方法在TPLM模型的基础上融入了用户问答关系网络的链接结构信息,将TPLM模型与PageRank算法进行融合,首先通过用户历史问答关系形成用户之间的问答关系网,然后将TPLM的计算结果作为PageRank算法中用户节点之间跳转的依赖因子,最后基于融合后的TPLMRank方法对用户进行综合评分。(3)针对平台中提出的问题,在计算用户与问题相关度时,本文对传统相关度计算方法进行改进,综合考虑文本的宏观主题和深层语义信息,采用SLA-LDA模型(LDA模型和基于Attention机制的Siamese LSTM模型的融合模型)取代传统的LDA模型。该模型首先利用LDA模型计算用户与问题主题相关度,然后利用基于Attention机制的Siamese LSTM模型计算用户与问题之间的深层语义相似度,在此基础上将两者进行融合,获取用户与新提出问题的最终语义相似度。最后基于TPLMRank方法获取的用户权威度和SLALDA模型获取的问题与用户相似度,本文综合考虑两者的计算结果,采用SL-TPLMRank方法对用户进行综合评分,排序,并将排名靠前的用户推荐给问题提问者。本文的实验均在抽取自知乎问答平台的真实语料集上进行,并采用NDCG和MRR两种指标对实验结果进行评估。评估结果表明,基于TPLM模型的语义分析技术能有效地挖掘专家的兴趣分布和专业能力高低,基于TPLM模型的TPLMRank方法可以更真实的衡量用户的权威度,同时融合了宏观主题信息和深层语义信息的SLA-LDA模型也可以更好的挖掘文本的语义特征信息。总的来说,本文提出的相关模型和方法均能在一定程度上提升了专家发现的质量。