基于云模型和用户聚类的协同过滤推荐算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:xianwolf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展,数据呈现爆炸式增长,信息过载问题越来越引人注目。协同过滤推荐技术在解决信息过载问题方面已经取得了不错的效果,但在实际应用中随着用户和项目的增多,数据稀疏性和扩展性等问题仍然制约了算法的性能,这些问题成为该领域的研究热点问题,具有很好的研究价值。因此,如何有效缓解基于协同过滤算法推荐系统中的数据稀疏性等问题、进一步提高推荐系统的预测准确度是本课题研究的主要目标。聚类技术常用于推荐系统中对用户进行聚类,挖掘用户的相似群体,进而有效的寻找合理的相似近邻集合,从而提高预测准确度。因此,针对传统Fuzzy C-Means算法对初始点敏感,易陷入局部最优解的缺陷进行了改进,提出了一种改进的模糊聚类算法(SoMKfcm算法)。首先,提出了一种初始聚类中心选择策略,有效避免噪音数据点的影响;其次,目标函数结合了样本加权和样本聚类中心距离,增加样本属性的非均衡性;最终对迭代求解过程进行优化,结合了模拟退火算法,加入了求解的随机跳跃性,避免结果陷入局部最优解。在MATLAB平台基于真实数据集上实验结果表明,与传统的算法相比,SoMKfcm算法具有更好的聚类效果和较好聚类准确度,并有效的改善传统算法的缺陷。在上述工作基础上,基于评分数据和用户个人信息数据,提出了一种结合云模型和用户特征聚类的推荐算法(CCCF算法)。首先,利用用户个人信息和云模型逆向云算法来重构评分数据,生成用户融合行为偏好向量。其次,在融合行为偏好矩阵的基础上利用SoMKfcm方法对用户进行模糊聚类,给出了重要性群体选择策略,为后续步骤提供数据平滑和近邻用户集的选择,进而提出了一种多维相似度计算方法。最后,基于上述结果进行评分预测。为了验证CCCF推荐算法的有效性,本文在Moveilens 1m和Moveilens 100k数据集上与其他几种相关算法进行对比实验。实验结果表明:在不同稀疏度情况下,CCCF算法能够有效缓解数据稀疏性对推荐算法的影响,算法预测准确度得到明显提高。
其他文献
随着计算机网络的飞速发展,网络拓扑结构和网络应用日趋复杂,异质异构的网络不断融合,网络行为呈现的相当复杂并且难以预测。对日益复杂的网络进行监测和管理是当前通信网络
基于生物群落结构的软件质量评估的仿生研究是以仿生学为基础,从生物群落结构的各个角度、仿生的数学原理以及软件评估过程模型与生物群落结构的相似性等方面展开,从设计思维
随着以Docker为代表的容器技术兴起,开发者能够将应用封装成标准的容器镜像统一发布到不同的云计算平台。为了部署和编排容器化应用,一些面向容器的资源管理系统相继被推出。
随着网络多媒体技术的飞速发展,Internet已逐步从单一的数据传输网向数据、语音、图像等多媒体信息的综合传输网演化。传统的提供尽力而为服务的网络,已无法满足各种应用对网
随着计算机科学的不断发展,大量的原始数据被收集并存储到计算机中,而数据处理能力的低下,造成了信息丰富、知识贫乏的现状。数据挖掘正是应此要求而迅速发展起来的一门学科。经
P2P技术由于其固有的非集中性、自治性、可扩展性和容错性等优点,以被广泛地应用在文件共享系统中。但P2P网络又因为其开放性,匿名性,动态性的特点带来了很多安全问题。用户
多核/众核处理器具有更高效的访存通道,以满足大量运算核心对数据访问带宽的需求。并行程序的数据访问模式直接决定了数据一致性的维护开销,而数据一致性开销对于访存带宽利
随着信息技术的迅猛发展,信息需求量呈现爆炸式的增长,传统网络的弊端日益显现,网络资源出现相对稀缺的情况。作为一种新型网络,自治网络具有自感知、自优化、自配置等特性,是下一代网络发展的必然趋势。自治网络对动态异构复杂网络具有良好的管理适应性,能够合理动态地配置网络资源,提高全网的资源利用率。自治网络概念的引入为网络资源管理问题赋予了新的内涵,为基于定价策略的网络资源分配方法提供了良好的实现环境。本文
学位
红外焦平面阵列(IRFPA)非均匀性的存在,极大的限制了成像系统的性能,因此实现红外焦平面阵列非均匀性自适应校正是高级红外探测系统追求的重要目标。基于场景校正方法的优越性