论文部分内容阅读
在线论坛是Web2.0的一种典型应用,它吸引着数以亿计的用户生成各种内容。面对在线论坛如此大的信息库,用户很容易湮没在这些信息中,如何帮助论坛用户得到他们需要的信息是亟待解决的问题之一。然而传统的信息检索由于实时性不够、缺少满足在线论坛数据特征的排序方式以及无法处理不能用关键词精确表述的查询任务等原因,不能满足在线论坛中用户获取信息的需求。因此,主动推荐是帮助用户获取论坛信息的一个主要方式。本文主要研究面向在线论坛的个性化信息推荐问题,鉴于在线论坛的特征,其个性化信息推荐系统和传统的个性化推荐系统相比主要有如下两个挑战:·论坛内容以短文本为主,这给提取用户兴趣图谱带来障碍,需整合社交网络和用户生成内容上下文才能有效获得用户偏好。同时,在线论坛缺少用户对推荐对象的明确打分,难以评估用户之间的相似性以及用户与推荐对象之间的相关性,这也给用户的兴趣图谱发现带来了挑战。·推荐对象种类多。既有以热点话题或者新闻事件为代表的时效性很强的推荐对象,又有以领域专家为代表的生命周期相对较长,比较稳定的推荐对象。有别于传统个性化推荐系统中的目标用户驱动模式,在线论坛中的推荐方式是推荐对象驱动的触发式推荐。这为寻找简单有效的用户兴趣图谱和推荐对象之间的快速匹配带来了挑战。针对在线论坛个性化推荐的以上两个挑战,对用户兴趣图谱发现、用户兴趣图谱与推荐对象匹配、以及推荐对象发现三个方面的内容进行了深入研究,提出了个在线论坛个性化推荐框架,这个框架较好地解决了在线论坛中实时性推荐的问题。本文的主要贡献有如下的三个方面:1.在详细分析了在线论坛数据特征以及现有用户兴趣图谱发现技术的基础上,提出了分别为活跃用户、非活跃潜水用户发现兴趣图谱的两种不同的图模型,并在各自的图模型上使用带重启的随机行走算法有效地捕获到了用户的兴趣图谱。为在线论坛用户发现兴趣图谱的最大挑战在于论坛上社交网络和用户生成内容混杂在一起,而这两种异构信息又会相互影响和加强。本文为活跃用户提出的三分图模型,以及为非活跃潜水用户提出的关注社交上下文图模型都能够同时融合动态社交网络和用户生成内容于一体。其后,在图模型上使用的带重启的随机行走算法在捕获用户兴趣图谱的过程中,也能同时兼顾动态社交网络和用户生成内容之间的直接和多步间接的相互影响与加强。2.在详尽分析已有推荐算法的基础上,提出了一种用来解决推荐对象和用户兴趣图谱快速匹配问题的新型逆向排序查询—top-k逆向排序查询,并在此基础上给出了对top-k逆向排序查询的快速响应框架。结合已有的序敏感查询,本文将推荐对象和用户兴趣图谱快速匹配问题转化为一个逆向序敏感查询问题,并提出了一种新的逆向排序查询,top-k逆向排序查询。提出了一个快速响应top-k逆向排序查询的框架,该框架利用top-k查询的几何属性和R*-树中最小外接矩形(MBR)包含的数据点的特征,能够快速确定一个查询点排序值的上下界,以达到对不符合要求的用户兴趣图谱权重向量快速剪枝的效果。理论分析和实验结果都表明,这个框架对于推荐对象和用户兴趣图谱快速匹配行之有效。3.提出了发现在线论坛上最主要推荐对象一领域专家的解决方案。用户是所有社交媒体内容的生产者和传播者,找到信息的最快捷的方式往往是找到产生高质量知识的源头,领域专家。因此,领域专家是在线论坛中的主要推荐对象。关于领域专家发现,本文主要解决了两个问题:一个是给定专家,找到他所擅长的领域;另外一个是给定领域,找到擅长该领域的专家。本文为了回答这两个问题,为在线论坛建立了同时捕获了动态社交网络信息和用户生成内容上下文信息的三分图,并随后根据该图中包含的星型部件的特点,将该三分图分解为一个星型模式图。这种分解有效降低了带重启的随机行走算法所使用迁移矩阵的规模,提高了算法的收敛速度。综上所述,本文重点研究了在线论坛用户兴趣图谱发现、用户兴趣图谱和推荐对象快速匹配、以及推荐对象之领域专家发现三个问题。在此基础之上,提出了一个完整的在线论坛个性化信息推荐系统的基本框架。本文所完成的工作是建立在对已有理论、技术和方法的详尽分析和大量实验的基础上。理论分析和实验结果都表明,本文提出的针对在线论坛的用户兴趣图谱发现方法、个性化推荐算法、以及个性化推荐框架具有好的性能和效果。