基于聚类的协同过滤推荐算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:lsssml1990
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在协同过滤推荐系统中,商品被视为特征,用户对他们购买的商品进行评分。通过对用户评分的学习,推荐系统可以向用户推荐他们可能需要的产品。然而电子商务网站中,通常有相当多的产品。如果在推荐前要对每一件商品都进行考虑,推荐系统将是非常低效的。聚类算法在近几年在推荐系统中也得到了很多关注,因为聚类本身固有的优点,它可以在很大程度上解决数据维度的问题。本文针对ItemRank算法的特点,结合聚类算法的优点,提出了一种改进的ItemRank算法IRSCC,它能有效的提高ItemRank算法的执行效率。本文提出的改进算法是利用自构建聚类算法来减少商品数量相关的维度,然后直接在聚类上运行推荐算法。最后,对推荐聚类进行变换得到推荐商品列表推荐给不同的用户。我们所提出的方法在计算推荐商品时所需的时间大大减少。实验结果表明,在不影响推荐质量的前提下,推荐系统的执行效率得到了有效的提升。本文提出的改进算主要是在以下几方面进行了研究工作:(1)通过研究分析ItemRank算法的优缺点,然后针对ItemRank算法的缺点,利用聚类技术进行改进。参考了当前比较好的聚类算法,排除了K-means等对用户负担较大的、算法比较耗时的聚类算法,最后利用文本挖掘里面的自构建聚类算法来对ItemRank算法进行改进,得出了IRSCC算法,此算法那不需要提前设定聚类的个数。(2)本文提出的改进算法IRSCC主要有五个步骤:首先为了方便对商品进行降维,我们为用户分配类标签,将相似的用户聚类到同一聚类中,不相似的用户聚类到不同的聚类中,最后同一个聚类中的用户拥有相同并且唯一的类标签。并且在标记标签时,我们消除了用户评分尺度对推荐结果的影响。随后利用SCC算法对商品降维。在降维前,我们先利用了Jiang等人提出的方法,对数据进行构造符合降维算法特征的特征模式,然后再进行降维处理,压缩原始数据集。其次利用降维后的数据集创建商品类的关联图,此步骤跟ItemRank的第一步思想一样,但是对其进行了调整。然后利用随机游走策略得到向用户推荐的商品类。最后将推荐的商品聚类列表转换为商品个体列表,然后推荐给用户。(3)对改进算法利用业界承认,并得到广泛使用的实验数据集进行了实验仿真与测试。然后把实验结果与ItemRank算法,以及一些其他也利用降维技术的算法的结果进行对比。利用实验结果验证本文提出的改进算法的合理性、有效性。最后,本文的实验结果证明了本文提出的改进的ItemRank算法IRSCC,在不损坏推荐质量的前提下,有效地提高了ItemRank的执行效率,并且也比其他聚类技术的推荐算法执行效率高。而且,对实验结果进行了详细的分析。对比算法执行的效果,分析了实际提升值与理论提升值之间差距的原因。
其他文献
<正>眼下正是我国广西、广东、海南和云南等蔗区甘蔗收获的关键时期,2018/2019榨季,有300台洛阳辰汉农业装备科技有限公司(以下简称辰汉公司)生产的甘蔗收获机穿梭在蔗林中,
机器人结构参数直接影响其对环境的适应能力,因此合理的结构参数设计至关重要。为更高效设计能适应障碍已知环境的机器人,该研究提出一种基于目标规划的机器人结构参数设计方
安徽卫视的综艺节目《蜜食记》作为慢综艺的代表节目之一,以一种清新、自然的表现形式,结合食美、景美、人美,让观众通过电视荧屏感受&#39;世外桃源&#39;般的慢生活。&#39;使
我国经济得到了飞速发展,房地产行业也经历了飞速发展的时期,成为了支撑国民经济的重要力量,房地产与GDP的比重有逐年递增的趋势。近几年我国的房地产一直是政府和老百姓关注的焦点,房地产库存大、房价高等一系列关乎老百姓民生的问题已经引起了政府的关注,中央政府和各地政府均在房价调控方面屡出新规,希望通过调控让其健康发展。房地产行业投资额度大、开发周期长,存在较大不确定性,加之面临政府调控,开发商所面临的不
随着信息技术的不断发展,人类的活动将在很大程度上依赖于网络。计算机教学过渡到计算机网络教学,将成为新世纪主流的教育形式。利用现代信息技术开展计算机网络教学活动,是提高
[目的]了解维持性血液透析病人的体力活动能力变化情况。[方法]本研究采用纵向研究设计,使用人类活动概况量表(HAP)、正常步速测定对155例接受维持性血液透析治疗的病人进行历
统计了30年来我国图书馆藏书结构研究论文的产出情况,对研究论文的年代分布、期刊分布、主题分布、经典文献、作者情况等方面进行分析,探讨我国图书馆藏书结构的研究现状及存
文章主要通过对马克思有关著作的研读,结合对相关文章的借鉴,初步得出了从个人与群体之间的关系探索人类社会发展的马克思的"自由人联合体"思想对我们了解未来社会的本质,以及
随着单片机电子台历设计的普及与应用,其在电子信息工程中的应用价值也日益凸显出来。基于此,本文将针对单片机电子台历设计概念与设计原理进行阐述,并对其应用意义进行分析,
句尾“了”与副词“没(有)”共现句式,通常带有时段状语;而王灿龙认为,时段成分不是“了”与“没(有)”共现的必要条件。经考察得知,“了”与“没(有)”可以共现于不带时段状语的句子,但