论文部分内容阅读
在信息过量且愈发碎片化的时代,“个性化”推送可以说是为网络新闻找到了一条增加用户黏性的有效渠道。目前,个性化新闻推荐相关研究受到越来越多的人的关注。由于新闻的个性化推荐服务水平仍存在较大差距,如果能够更好的挖掘用户的潜在兴趣并进行相应的新闻推荐,就能够产生更大的社会和经济价值。本文对个性化新闻推荐模型及算法的研究,能够更加准确地预测新闻用户即将浏览的新闻,使用户体验更佳。目前个性化新闻推荐已有很多模型和算法,传统的基于内容推荐的新闻与已阅读的新闻相似性过高,用户体验较差,而使用协同过滤方法时,又不可能按照电子商务推荐的方法,因为新闻是持续性更新的,以新闻分类为单元的协同过滤预设分类往往分类粒度比较大。故本文采用的方法结合了基于内容和协同过滤的方法,对新闻数据进行二次聚类。该方法首先利用数据挖掘技术整理新闻数据,采用基于语义的关键词提取方法提取每篇新闻文章的关键词,并统计其在该篇文档中的词频,再合并两篇新闻文档的关键词,根据关键词之间的语义距离将其分为多个聚类簇。然后计算关键字在聚类簇上的词频向量,利用余弦相似性定理计算两篇新闻文档的相似性对其进行一次密度聚类。最后以密度聚类中每个聚类簇随机抽样的m个数据点作为中心在所有新闻数据中采取快速聚类方式,再把这m个小类簇组合到同一个簇内。本文在二次聚类方法的基础上根据用户阅读历史和待推荐新闻的聚类分布,兼顾新闻的时新性和热度等因素,建立用户模型函数进行推荐。论文完成的工作与研究内容:1、研究了TF-IDF关键词的提取方法发现其忽略了语义之间的共现,采用基于语义的关键字提取方法提取关键字,提出了每篇新闻文档在关键字聚类簇上的词频计算方法来判断文档的相似性。2、研究了基于内容和协同过滤的推荐方法,发现其不足和优点,文中采用的新方法结合了内容和协同过滤的方式,即基于内容和协同过滤的二次聚类方法。在内容方面兼顾用户历史浏览数据,在协同过滤方面针对用户以往阅读历史以待推荐新闻所在的簇建立关联矩阵,最后通过矩阵分解(SVD)方法来预测用户对待推荐新闻的兴趣度。3、根据用户阅读历史和待推荐新闻的聚类分布,兼顾新闻的时新性和热度等因素,建立了带有时间标记的用户模型函数预测兴趣度,将时间信息融入到新闻推荐中。4、在个性化新闻推荐应用中,对文中方法、基于内容的新闻推荐方法、基于协同过滤的推荐方法进行比较分析,得出结论。本文对个性化新闻模型及算法的研究后采用的新方法推荐效果更佳,可以将相关新闻聚集在一起,而且又不导致过高的运算开销,并通过参数估计方法计算各参数的最佳值,且有效地实现了跨类别推荐,达到推荐多样化的目的,还扩展到了语义级别,使其研究有很大的应用价值。