基于用户的协同过滤算法改进研究及并行化实现

来源 :西北农林科技大学 | 被引量 : 0次 | 上传用户:sony360
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在众多推荐技术当中,协同过滤推荐算法以其良好的推荐效果和推荐性能成为众多推荐系统的核心算法。然而,传统的协同过滤算法仅通过用户评分数据进行分析计算,推荐精度较低。同时,现有研究多以单节点计算为主,面对海量数据,已不能满足可扩展性要求。因此针对算法推荐精度低与可扩展性差的问题,本研究对基于用户的协同过滤算法进行改进,并将改进算法基于Spark平台进行并行化的设计与实现,主要研究内容如下:1.提出了改进用户聚类的协同过滤算法。针对传统的协同过滤推荐算法仅通过评分数据进行分析计算,导致推荐精度较低的问题,根据用户对各项目类别的访问频率构建了用户的项目类别关注度模型,并从初始类中心选取与距离度量两方面改进模糊C均值聚类算法,在目标用户簇类内进行协同过滤推荐。实验结果表明,在近邻数取40,聚类个数为25时,该算法较传统的协同过滤算法平均绝对误差降低了3.41%。2.提出了融合用户兴趣因素的协同过滤算法。考虑到数据稀疏性与用户兴趣会随时间变化等问题,引入了矩阵填充与评分修正的数据预处理过程。针对改进用户聚类的协同过滤算法在相似度计算过程中没有充分考虑用户兴趣的问题,基于用户对项目类别的评分信息构建了用户间类别差异度模型,并以此改进传统的相似度计算,最终在改进的用户聚类的基础上,进行协同过滤推荐。实验结果表明,在同等聚类条件下,近邻个数取40时,该算法较基于改进用户聚类的协同过滤算法平均绝对误差降低了2.85%,说明该算法可以进一步提高推荐精度。3.设计了改进的基于用户的协同过滤算法的并行化实现方案。针对推荐系统的可扩展性问题,本研究按照算法处理流程,将结合用户聚类技术与用户兴趣因素改进的协同过滤算法划分为矩阵分片与评分修正填充、用户聚类、协同过滤推荐3个阶段,并针对每阶段任务对算法进行了并行化设计与实现。实验结果表明,在MovieLens-1m数据集下,4节点Spark集群上的算法运行时间比单节点减少了50.16%,证明基于Spark平台的算法并行化方案可以有效地解决系统的可扩展性问题。
其他文献
热激转录因子(Heat shock factors,HSFs)普遍存在于整个生物界.尽管植物HSFs的DNA结合域具有较高的保守性,但其结构特征、生物功能具有多样化的特点.本文利用黄瓜(Cucumis sativ
某电站循环水泵大轴在运行中突然发生断裂,引起机组非停,为查明断裂原因,对大轴断口进行宏观分析,并取样进行化学成分、金相组织、力学性能等试验分析,阐述了泵轴的断裂原因
南阳汉画,内容很丰富,有地主贵族阶级的宴乐、狩猎,也有天文星象和神话故事等,直接反映了汉代地主贵族阶级的生活和他们的思想意识,也间接反映了当时的经济状况和阶级矛盾。
期刊
以大庆油用油气集输系统布站方式为例,阐述了该油田油气集输布站方式转化的可行性,并以南2—2油气集输系统为例,给出了二级布站的经济指标,最后提出了评价布站方式的一些技术
感冒是一种常见的急性上呼吸道感染导致的传染病,一年四季都可能发生,本文分别从中西医及营养学角度谈谈此病的防治。
目的应用近红外光谱技术建立对白芷中欧前胡素,防风中升麻素苷及5-O-甲基维斯阿米醇苷总量的快速检测方法。方法分别采集自不同产地100批样品,通过高效液相色谱法测定指标成
头痛是临床上常见的自觉症状,中医又称为头风。由于本病的病因病机较多且复杂,笔者在中医辨证分型的基础上,再根据头痛的不同部位进行分经辨证施治,采用推拿加电针的方法进行治疗
最近几家媒体问我:委内瑞拉危机四伏,马杜罗手里还有什么牌?美国屡以动武相威胁但引而不发,何时“图穷而匕首见”?$$无论有多少国家承认“自封总统”瓜伊多,从法理上讲都无法改变马
报纸
药品是一种特殊商品,攸关人的生命,对病人属于“刚需”,具有准公共物品的性质。完全靠市场,价格低、用量小的药品有可能出现短缺,必须借助政府的“有形之手”加以调节才能纠正市场
报纸
随着全球化的进程的推进,人与人的交流变得越来越频繁,翻译也成为了一项越来越重要的工具。翻译实践必须有翻译理论的指导,在此之前,很多学者已经意识到翻译理论的重要性,并