论文部分内容阅读
目前随着互联网的进一步发展,以及移动设备近几年的崛起,2015年全球网民有望突破30亿,已经将互联网推进大数据时代,同时互联网上的各种信息也极其膨胀和冗余,个性化推荐在大数据时代显得尤其重要。通过大数据的计算,个性化推荐能够智能地为用户推荐用户所感兴趣的内容,让人们从海量数据的迷茫中解脱出来。目前新闻推荐系统推荐算法大多基于协同过滤、基于内容的推荐算法。但是又面临着协同过滤的缺点,数据的稀疏性问题和冷启动的缺陷。基于新闻的属性,本文在利用协同过滤算法的同时,结合TF-IDF(词频-逆文档频率)算法在内容处理上优势,以及权重的设置,提出了一个新闻个性化推荐系统的设计思路与解决方案。本文的主要工作包括:1)基于协同过滤推荐除了将用户访问列表、新闻条目的访问列表作为相似度的度量外,还加入了新闻关键字,新闻类别作为相似度的计算之中,同时根据新闻发表时间,适当调整推荐项目推荐值,使推荐结果更加符合用户的浏览行为。2)基于内容推荐新闻内容包括新闻类别、新闻分词后的关键字。在基于新闻类别的推荐中,用户浏览的各个类别的新闻数量与用户的兴趣是正相关的。在统计一个用户足够多的浏览记录之后,可以得出用户在每个新闻类别上浏览的新闻数量,这个数量可以认为是用户对每个新闻类别的兴趣值。在基于新闻关键字的推荐中,通过统计用户浏览历史中的新闻中关键字,将这些新闻关键字聚合起来作为用户的关键字。在推荐的后台数据库,根据TF-IDF算法利用这些关键字为每条新闻评分,推荐集合按照评分的高低降序排列。实验结果证明:将基于协同过滤算法的新闻推荐值与基于内容推荐算法的新闻推荐值相加,并作为每条新闻的最终推荐值的混合推荐方式能够有效提高推荐效果。为了加快推荐算法的速度,整个推荐过程是以storm为核心,将新闻库的信息、Map Reduce离线计算结果都保存在内存数据库中,storm根据内存中的用户数据、新闻数据做实时推荐。