论文部分内容阅读
信息技术的发展使信息的发布和传播变得非常容易,这在带来巨大便利的同时也带来了信息过载的问题。以新闻数据为例,面对每天成千上万的新闻报道,用户如何在短时间里找到自己感兴趣的新闻是每个用户必须面对的问题。个性化推荐可以解决这个问题。个性化推荐目前已在业界被广泛应用并取得很大成效,但传统的推荐系统把追求较高准确性作为推荐目标,忽略了其他指标,导致了用户满意度不高。近些年越来越多的专家学者关注到推荐系统多样性的重要性,一般来说多样性提高会带来准确性的降低,如何在保证一定准确性的情况下提高多样性是多样性研究必须面对的问题。针对这一问题,本文以协同过滤推荐算法为基础,融合用户兴趣偏好,综合运用k-means算法、向量空间模型等方法设计了一种新闻推荐方法,主要研究工作包括以下内容:首先,改进传统的相似度计算公式,缓和数据稀疏性带来的准确性不高的问题。数据稀疏性一直是制约推荐效果的原因之一,本文利用杰卡德相似系数和热门惩罚因子对传统余弦相似度计算公式进行修正,提高稀疏数据下用户间相似度计算的准确性,进而提高推荐结果的准确性。其次,依据新闻文本特征构建用户兴趣模型,解决数据集无类别标记的问题。电影推荐可以依据电影类别生成用户对电影的类别偏好以提高推荐质量,但本文采用数据集中无类别标记。本文通过TF-IDF算法计算出关键词权重建立新闻特征矩阵,然后与用户浏览记录结合构建用户兴趣模型,进而提高推荐质量。最后,聚类及跨类选择最近邻,解决推荐列表总体多样性不足的问题。传统方法直接选择与目标用户相似度最大的前K个用户作为最近邻集合进行协同推荐,推荐结果准确性很高但多样性不足。本文采用k-means聚类算法对用户兴趣偏好聚类,然后通过在不同类内分别寻找目标用户最近邻的方法提高协同用户的多样性,进而提高推荐结果的总体多样性。本文选择DataCastle竞赛发布的财新网中10000个用户在2014年3月的新闻浏览记录作为数据集进行实验。实验结果表明,与传统推荐算法对比,本文方法在保证一定准确性的情况下,有效提高了推荐列表的总体多样性,具有更高的推荐质量。其研究成果对于新闻领域总体多样性的研究具有一定的理论价值,对发掘长尾新闻、提高用户满意度上有一定的应用价值。