论文部分内容阅读
互联网作为信息的高速公路经历了快速的发展,而在发展过程中带来的“信息爆炸”严重影响着用户使用互联网的体验,高效的信息检索要求下推荐系统应运而生。推荐系统利用已有的数据信息通过各种算法推测并推荐给用户可能感兴趣的项目,再通过用户对推荐项目的反馈调整推荐方向,不断优化推荐系统。在实际应用中,推荐系统中新用户基于内容推荐的“冷启动”和潜在兴趣缺失问题随之出现。在推荐系统中引入用户外部已有信息数据是解决新用户冷启动和潜在兴趣缺失问题的方案之一,由于个人社交媒体(微博)信息的公开性、精确性和信息多样性被广泛研究应用于个性化推荐系统。与此同时,协同过滤算法利用用户群体集与项目集之间进行交互行为来进行推荐,其作为解决推荐多样性不足且富有新颖性的推荐方法被广泛研究。近年来关于对社交媒体的研究越来越多,研究者通过分析社交媒体进行热点新闻预测、舆论分析、个性化推荐和社区发现等研究。通过挖掘社交媒体信息,给社会化各群体以用户画像,经过个体的个人信息、微博发文、转发和评论等信息分析的个人用户画像作为个性化推荐的基础。在本文中,通过研究微博媒体结构来实现对个体用户的兴趣挖掘,并使用挖掘的用户兴趣集作为基于内容新闻推荐的元数据之一。根据上述研究思路用以解决在实际新闻推荐应用过程中存在的冷启动和推荐多样性不足问题,本文的主要研究工作如下:首先,针对传统基于内容的推荐算法存在的新用户的“冷启动”问题,提出了一种融合用户微博兴趣挖掘和协同过滤的新闻推荐算法,该算法通过关联用户的微博数据并从中挖掘用户兴趣,经过相似度计算得到基于用户微博兴趣挖掘的候选推荐新闻集,再利用用户历史新闻评价信息,运用基于用户的协同过滤算法得到最终的候选新闻集,从而解决冷启动和推荐多样性缺失问题,并提高推荐效果。其次,在挖掘用户微博兴趣过程中,通过分析群体用户微博发现存在很多的微博用户微博发文少,针对这一问题,运用了微博兴趣挖掘框架,通过将挖掘微博用户关注者的背景信息和标签信息用来表示为微博发文少用户的兴趣,提出了一种微博用户兴趣挖掘算法,该算法在融合用户微博发文兴趣、用户潜在关注兴趣等兴趣挖掘,对用户微博兴趣集进行更好的构建。最后,进行新闻推荐过程中出现的维度灾难问题,通过textCNN进行了文本分类,太大降低推荐过程中的计算消耗时间,同时与传统的新闻推荐算法进行比较实验,并得到结论。通过分析实验结果表明,该算法在提高了推荐效果的同时具有多样性和新颖性,并且能够有效的缓解新用户的冷启动问题。