集成聚类算法及其在个性化推荐中的应用研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:jerryfong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类是数据学习中一项关键技术,以无监督的形式进行分类。通俗地讲,聚类就是将数据划分出不一样的类簇,同一类簇中的相似度尽可能的大,而不在同类簇中的相似度尽可能的小。近年来,聚类出现在很多新的技术研究领域,如:个性化推荐。个性化推荐是依据用户数据和喜好习惯向用户推送符合偏好的信息,挖掘用户的潜在需求,这在很大程度上减少了查找信息的时间,提高了网络平台的效率。协同过滤算法面对庞杂数据进行推荐时,算法推荐效率会降低。利用聚类算法数据分类的特点来解决推荐中的弊端,不仅能降低计算量,还提升了推荐效率。聚类算法在个性化推荐技术中应用时,如何实现快速、高效率的推荐是研究的重难点。本文针对经典聚类算法自身的不足和推荐算法存在的问题缺点等进行分析研究,工作具体如下:(1)针对K-means算法随机生成初始中心对结果干扰大以及容易陷入局部最优的缺点,先提出了依靠密度峰值优化K-means初始中心的F-KMs聚类算法,再提出名为N-FK的集成算法:不仅可以快速得到最佳初始中心并且利用谱聚类的算法特点解决了F-KMs无法处理任意密度形状的数据的不足。(2)针对在处理大规模数据时,近邻传播(AP)算法复杂度高且需要巨大内存做支持,算法结果受参数取值的影响大以及AP算法无法处理非凸数据等问题。本文融合AP和N-FK算法,提出一种三阶层的集成聚类算法:第一层利用AP对数据稀疏粗分,每类选取一个类代表元;第二层对得到的类代表元通过N-FK进行细致聚类;最后合并前两层的结果得到所有数据的精确划分。所提出的集成算法,融合了AP及N-FK算法的优点,可以处理不同类型的大规模数据,减少存储空间利用。(3)将本文集成聚类算法应用于个性化推荐中,设计出基于集成聚类的多层次推荐算法。此算法先将原大数据集进行聚类划分,然后从相似度高的目标类中重新构建用户矩阵进行协同过滤推荐,减少了计算复杂度。文章采用MovieLens数据集进行实验,通过推荐性能度量指标进行测评检验,证明本文提出的多层次推荐算法提高了的推荐效率,并可以处理数据稀疏性的弊端,使推荐更具“个性化”。
其他文献
杭州祺来电子有限公司(Cheele Electronics Co、,Ltd.)推出业界首款DC-120MHz宽带隔离放大器CIM1100。该款放大器采用了祺来电子专有宽带线性隔离技术,其带宽革命性地拓展到DC-120
在信息域概念的基础上,给出了信息域的形式化描述.从信息安全的角度分析了战术C3I系统的体系结构,提出了系统包含的4种信息域,即情报处理域,信息共享域,指挥决策域及信息反馈
该文介绍了一款用于本科实验教学的LED大屏幕显示系统实验箱的设计与研制,包括硬件电路的设计和软件部分的设计。该实验箱为学生学习电子应用系统设计和基本显示原理、设计及
基于同轨构型下严格解析的双基频谱和谱分析方法,提出了一种适用于同轨构型下聚束式双基地SAR成像算法.首先,类比单基情形,推导出了双基地情形下的deramp函数,实现方位向的粗聚焦,
王曰美老中医治疗血尿经验于淑军于丽霞(山东省威海市中医院,山东264200)主题词血尿/中医药疗法/王曰美/中医师血尿是泌尿系统疾病的主要症状之一,可分为肉眼血尿和镜下血尿。王曰美主任中
该文以无机化学教材中的实验为基础,应用Origin和Excel两种计算机软件对实验数据进行处理,并对实验结果进行比较。
吲哚啉螺吡喃是一种重要的光致变色化合物,由于具有良好的变色回复性、抗疲劳性而得到广泛的关注.本文合成了1’-羟乙基-3',3’-二甲基吲哚啉-6-硝基螺吡喃,研究了该化合物在紫外.
以3.5GPAMAM(3.5代聚酰胺一胺型)树状大分子为保护剂,利用微波法还原HAuCl4溶液制备金纳米粒子.考察了当3.5GPAMAM与HAuCl4物质的量的比一定时,微波照射不同时间对金纳米粒子大小及形
我科自1990年以来,应用名中医魏长春的经验方血余茅根汤治疗小儿延延性血尿50例,收效满意,现介绍如下。1一般资料50例中,男31例,女19例;年龄最小4岁,最大15岁;病程最短6个月,最长31个
利用Rimoldi的CPM分解模型,将STC与改进型无反馈的CPE联合设计,研究了一种基于整数环的STC—CPFSK编码器的设计方法。分析和仿真表明,与传统的STC—CPM编码器相比,该编码器具有结