论文部分内容阅读
在虚拟社区中,用户可以依据自己的兴趣爱好创建群组或者社区,在这些社区中,用户可以互相交流、获取自己所感兴趣的信息。用户也可以加入到别人已经创建的社区中去。如今,互联网上的虚拟社区的数量越来越多,用户想从如此大量的社区中找到其感兴趣的社区,变得愈来愈困难。因此,如何快速有效地为用户推荐其所感兴趣的社区越来越受到重视,成为了日益受到关注的研究内容。现有的社区推荐算法,容易遇到由于数据观察的限制所导致的过拟合现象以及计算量庞大的问题。并且这些方法忽略了用户与社区之间的关系强弱,也没能考虑用户兴趣随着时间的发展变化。如果有新用户加入,无法及时快速的更新模型,没有良好的可扩展性。在这样的背景下,本文主要研究如何解决现有的社区推荐方法所遇到的以上问题。论文的主要研究工作以及创新点如下:1.提出基于软约束的LDA社区推荐算法:S-LDA。选择用户与社区关系强弱作为软约束。将每个用户看作一个文档,用户参与的每个社区看成是文档中的单词,而用户与社区的关系强弱看作是用户文档中同一个社区单词的出现次数。然后采用Gibbs采样来求解模型参数。实验结果表明,该算法相对于以往的算法有着较明显的性能优势。2.提出了一个在线更新模型的系统框架。加入了这个框架的算法SO-LDA,解决了S-LDA算法的可扩展性问题,当有新用户加入时,维持原有的训练好的模型参数不变,单独为新加入的用户文档训练模型。这种情况下,只需要迭代很少的次数就可以达到收敛,因此大大降低了计算的复杂度。3.提出了一种基于时间信息的社区推荐算法。将时间信息考虑进用户兴趣建模。用户的每次发帖行为对现在的模型的影响是与时间相关衰减的,用核密度估计的方法来描述这一影响,得到时间信息对用户兴趣建模的影响因子,再利用影响因子来给用户-主题分布加权。实验结果表明,该算法将S-LDA的性能进一步提升了。4.在图书馆交互式科研系统(LISER)平台上实现了SO-LDA算法,可以看出在实际应用中,该算法有着良好的表现。