论文部分内容阅读
Web2.0时代,在线社交网络的应用越来越普遍,并在此背景下,发展出更加精细化、垂直化的垂直型社交网络,比如以Linked In为代表的职业社交网,以豆瓣为代表的点评交流网,以知乎和Quora为代表的问答社区等,聚集了一群在特定领域更专业,需求更细化的志同道合的人,其意义在于用户需求的升级和商业价值的体现,内容具有排他性,可深度解决小众群体的特殊需求。在这些垂直社交网站上,“以用户为中心”的理念极大地激发了人们创新的热潮,用户在虚拟的社交网络中就自己感兴趣的领域从事大量的社交活动,如发布消息、分享视频、交友与交流等,这样会产生海量数据,引起信息过载问题。对用户而言,如何找到兴趣相投的信息成为难题;对企业而言,如何向潜在客户提供合适的产品或服务是个挑战。推荐的核心是信息过滤,因此推荐是解决这类问题的方法。垂直社交网络产生的信息量多,噪音大,且多为非正式文体,描述对象广泛多变,这给推荐算法带来了困难。因为,不论是协同过滤推荐算法(Collaborative Filtering,CF)需要的用户-项目评分矩阵(useritem ratings profiles),还是基于内容的推荐算法(Content-Based,CB)需要的项目特征描述(user-item profiles),垂直社交网络中都没有上述算法所需要的数据,但用户自主发布在社交网络上的信息又真实地反映了用户多方面的偏好,这对提高推荐的准确率和多样性具有深刻意义。主题模型作为文本建模方法,在潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)模型的基础上产生了许多扩展和变形,在文本挖掘和信息处理领域应用广泛,对于挖掘文本中的隐含语义适用性高,实际效果佳。借助主题模型可以挖掘垂直社交网络中用户的偏好,分析用户间的兴趣相似性。同时,社交网络中有其特有的社会关系信息,可建立用户之间的社会关系网络,分析用户的信任关系,将其结合到CF中形成的社会化推荐成为推荐研究领域较为活跃的研究方向之一。本文深入分析用户在垂直型社交网络中的行为,提出了融合相似度和信任度的社会化推荐算法。该算法借鉴CF算法的思想,利用作者主题模型(Author Topic Model,ATM)分析用户自主生成的文本内容,形成用户的偏好描述,进而获得用户间的偏好相似度。在考虑相似性的基础上,结合社交网络特有的社会化信息,探究垂直型社交网络中的隐性社交信任机制,综合度量全局和局部信任来产生用户间的信任度,并在衡量局部信任时,利用情感分析方法分析用户间交互文本的情感倾向性来进一步修正用户间的信任值。最终结合相似度和信任度来预测用户可能感兴趣的未知内容。最后,以“汽车之家”论坛中的真实数据为样本进行实验,发现该算法能对用户产生较准确的推荐,在论坛这类的垂直型社交网站上有一定的应用前景和潜力。本文还通过分析垂直型社交网站中的内容特点,提出了基于主题关键词的社会化混合推荐算法。该算法结合基于内容的推荐和基于用户的协同过滤推荐,主要针对网站中的热门内容,利用LDA模型构建推荐内容特征的表示模型,对各个社区中的用户进行基于内容的推荐,从用户自主产生的历史文本数据中训练ATM模型,构建用户兴趣的表示模型。综合考虑用户兴趣和推荐内容的匹配度,时间和冗余过滤的因素,生成推荐列表,并把此列表过滤后,同样推荐给与用户相似度和信任度高的其他用户。该社会化混合推荐算法能够准确地捕捉用户的兴趣,推荐新出现的热门内容中符合用户兴趣的内容,增加推荐内容的多样性、新颖性,这对于挖掘用户潜在需求具有深刻意义。