论文部分内容阅读
随着信息化产业、社交网络的不断发展,社交网络的用户越来越多,微博作为社交网络中的重要信息交互平台,具有共享性、时效性和交互性等特点,迅速受到大量用户的青睐。如何在微博的海量用户中快速、准确地找到用户感兴趣的用户信息,即实现用户推荐成为当前研究的一个热点问题。针对KNN算法的分类效率随着训练集规模和特征维数的增加而逐渐降低的问题,提出了优化的文本分类算法;针对传统的协同过滤推荐算法中存在的数据稀疏性和推荐准确率不高的问题,将上述提出的分类算法应用于用户推荐中,提出了基于多源信息相似度的微博用户推荐算法。本文所做工作主要分为以下两个方面:(1)提出了基于Canopy和粗糙集的CRS-KNN文本分类算法。该算法首先将待处理的文本数据通过Canopy进行聚类,然后对得到的每个类簇运用粗糙集理论进行上、下近似分割,对于分割得到的下近似区域无需再进行分类,而通过上、下近似做差所得的边界区域数据需要通过KNN算法确定其最终类别。该方法降低了KNN算法的数据计算规模,提高了分类效率,同时准确率、召回率和F1值都有一定的提高。(2)提出了基于多源信息相似度的微博用户推荐算法。该算法首先根据微博用户的标签信息,运用CRS-KNN算法对用户进行分类处理;其次,对得到的每个类中的用户分别计算其多源信息的相似度大小;再次,引入时间权重和丰富度权重计算多源信息的综合相似度,并根据其大小进行TOP-N用户推荐;最后,搭建了Spark并行计算框架,完成了算法有效性的验证,实验表明该方法不仅在用户推荐上具有良好的有效性,而且在准确率、召回率和效率等方面都有较大幅度地提升。本文对微博用户的个性化特征进行深入分析。针对微博用户的分类算法、微博用户相似度计算相关的多源信息以及影响微博用户综合相似度的因素进行了充分研究,形成了以微博用户分类为前提,利用多源信息实现个性化微博用户推荐的算法。运用新浪微博真实的数据集验证了本文成果,效果良好。该文所做工作为研究个性化微博用户推荐算法提供了较好的借鉴价值。