论文部分内容阅读
互联网和移动互联网的不断普及和深入发展造就了当下的大数据时代。数据量的增长在电子商务领域的体现尤为明显,这为今后的发展提供了更多契机,但也产生了信息过载这样的问题,即用户无法从海量的商品信息中快速、准确地获取到真正感兴趣的需求信息,在这一背景下推荐系统应运而生。协同过滤算法是推荐系统中应用最为广泛的技术,但是在实际应用中也存在如实时性差、准确率不高、冷启动和数据稀疏等问题。近来关于推荐系统的研究中,一些学者提出引入聚类技术来解决以上部分问题。基于聚类的推荐算法通过先对用户或者项目进行聚类划分,使得相似度较高的对象聚集到同一个类簇中,从而简化查找最近邻居的过程,大大减小了整体计算复杂度和时间消耗。另外由于聚类过程可以在线下完成,所以大大提升了推荐系统整体的实时响应性。本文对聚类技术和推荐系统做了一定理论研究,针对基于K-means的聚类推荐算法提出了4点算法改进,并通过实验验证了改进的有效性。本文主要研究内容为:(1)利用基于信息熵的权值优化传统欧氏距离的计算方式,来改进K-means算法,使之在对用户的聚类过程中能更精确的计算用户间的相似度,优化最终的聚类划分结果;利用指数函数优化粒子群算法中粒子的个体学习因子和群体学习因子取值方式,增强粒子的学习能力;利用对数变化规律优化粒子群算法中粒子速度的更新方式,提高算法的最优解搜索能力和算法收敛性。将改进的K-means和改进的PSO算法相结合,提出改进的混合聚类算法Ajusted PSO-Kmeans算法。(2)将基于信息熵的权值引入基于用户的协同过滤算法的Pearson相关系数计算方式中以改进UCF算法,使之在查找最近邻居的过程中消除用户评分向量间的量纲化差异,有利于找到兴趣偏好更相似的最近邻居。将改进的PSO-Kmeans混合聚类算法和改进的UCF算法相结合,提出了改进的基于混合聚类的推荐算法A-UCCF算法。(3)设计实现了三个实验:其一,在实验数据集Iris和Wine上验证了本文提出的Ajusted PSO-Kmeans混合聚类算法相比K-means、PSO-Kmeans算法具有更好的聚类质量和划分准确性。其二,在实验数据集MovieLens上验证了本文提出的A-UCCF算法相比UCF、UCCF算法具有更好的推荐准确性。其三,在第二个实验基础上利用查找效率指标验证了A-UCCF算法比UCF、UCCF算法具有更高的实时响应性。