论文部分内容阅读
问答社区已经逐渐发展成为人们分享并获取知识和信息的平台,每天都有大量的新问题被用户提出来,等待其余用户回答和讨论。但是随着社区的发展积累了海量的问题、答案及用户数据,问答社区开始面临“信息过载问题”。一方面是用户难以快速找到自己感兴趣的相关问题,另一方面是很多新问题被堙没在海量的数据里,无法及时获得高质量的答案,同时新问题缺少能够准确描述问题信息的话题标签,导致很难被其余用户检索发现。本文针对问答社区面临的数据挑战难题,研究并设计解决标签推荐和专家用户推荐的算法模型。论文的研究工作主要分为两个部分。第一部分提出了基于深度学习的标签推荐算法。根据问题的多标签属性,首先将标签推荐定义为一个多标签文本分类问题,然后结合双向长短期记忆网络和卷积神经网络提取问题文本的语义特征信息,并在训练数据集上进行有监督的多标签分类训练。为了提升算法模型的性能,本文在双向长短期记忆网络中引入了基于传统注意力机制的单词注意力机制和句子注意力机制。论文的第二个研究工作是针对问答社区新问题的专家用户推荐,本文将专家用户推荐定义为一个对级排序学习问题,即对于每一个问题,按照答案的质量优劣,构造每两个回答者之间的相对偏序关系作为训练样本进行模型学习。为了缓解用户行为稀疏性以及为了增强用户和问题的匹配质量,算法构造一个基于用户回答问题的行为和用户社区关注关系的异构图,通过在异构图中进行随机游走发现更多的用户-问题潜在关系。在进行排序学习训练时,需要以数学形式表示问题和用户并计算问题和用户的相关性,本文使用双向长短期记忆网络进行问题文本的表示学习,同时学习一个用户嵌入矩阵表示用户。为了增强神经网络的表示学习能力,针对问答社区问题的多话题属性特点,提出一个多话题注意力机制。本文在知乎的真实问答数据集上验证了提出的两个算法模型的性能,实验结果表明本文提出的算法模型优于传统的标签推荐和专家用户推荐算法,其中标签推荐算法的F1-Score指标相较于传统的基于内容的方法提升了30%,比基于单个深度学习模型的算法提升了10%。专家用户推荐算法在NDCG和MRR这两个指标上比传统算法提升了10%左右,在F1-Score指标上提升超过了3%。