论文部分内容阅读
随着互联网技术的快速发展,数据呈现爆炸式增长,信息过载问题越来越引人注目。协同过滤推荐技术在解决信息过载问题方面已经取得了不错的效果,但在实际应用中随着用户和项目的增多,数据稀疏性和扩展性等问题仍然制约了算法的性能,这些问题成为该领域的研究热点问题,具有很好的研究价值。因此,如何有效缓解基于协同过滤算法推荐系统中的数据稀疏性等问题、进一步提高推荐系统的预测准确度是本课题研究的主要目标。聚类技术常用于推荐系统中对用户进行聚类,挖掘用户的相似群体,进而有效的寻找合理的相似近邻集合,从而提高预测准确度。因此,针对传统Fuzzy C-Means算法对初始点敏感,易陷入局部最优解的缺陷进行了改进,提出了一种改进的模糊聚类算法(SoMKfcm算法)。首先,提出了一种初始聚类中心选择策略,有效避免噪音数据点的影响;其次,目标函数结合了样本加权和样本聚类中心距离,增加样本属性的非均衡性;最终对迭代求解过程进行优化,结合了模拟退火算法,加入了求解的随机跳跃性,避免结果陷入局部最优解。在MATLAB平台基于真实数据集上实验结果表明,与传统的算法相比,SoMKfcm算法具有更好的聚类效果和较好聚类准确度,并有效的改善传统算法的缺陷。在上述工作基础上,基于评分数据和用户个人信息数据,提出了一种结合云模型和用户特征聚类的推荐算法(CCCF算法)。首先,利用用户个人信息和云模型逆向云算法来重构评分数据,生成用户融合行为偏好向量。其次,在融合行为偏好矩阵的基础上利用SoMKfcm方法对用户进行模糊聚类,给出了重要性群体选择策略,为后续步骤提供数据平滑和近邻用户集的选择,进而提出了一种多维相似度计算方法。最后,基于上述结果进行评分预测。为了验证CCCF推荐算法的有效性,本文在Moveilens 1m和Moveilens 100k数据集上与其他几种相关算法进行对比实验。实验结果表明:在不同稀疏度情况下,CCCF算法能够有效缓解数据稀疏性对推荐算法的影响,算法预测准确度得到明显提高。