基于项目属性相似度的协同过滤算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:hahaxine
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络内容的增加造成了数据的过载,并创造了多样化的数据信息。大量的数据和各种各样的选择导致用户在决策方面的困惑。由于决策不善,某些信息可能会丢失和曲解。解决问题的办法是应用推荐系统,帮助用户过滤信息和预测正确的决策。协作过滤是流行推荐系统技术之一,自发明以来已经得到极大的改进。协同过滤技术的原理是基于其他邻居的相似评价的识别。推荐系统不会立即简化用户的决策,因为推荐系统本身存在一些挑战和问题。例如,冷启动、数据的稀疏性、数据规模巨大、特殊用户、托攻击,多样性和长尾等问题泛滥等问题。本文研究了多个当今最先进的推荐技术,例如Amazon.com的商品过滤、Netflix挑战研究的dyadic数据分析、Google新闻的可扩展在线协同过滤、Mymedialite推荐系统库。第一个研究是Amazon.com的商品协同过滤。通过比较用户的行为,亚马逊选择了计算采购产品之间的余弦相似度方法,为特定用户选择和建议最相似的产品。亚马逊有大量的信息是亚马逊利用这种方法原因之一。商品-商品协同过滤的优点是:能够处理大数据集,实时推荐结果和用户聚类模型,缺点是需要大量的离线训练时间。第二个研究结构迭代法的并行数据研究。该研究本身使用了矩阵分解,这种常用的工具用于处理数据分区,以最大化数据局部性和并行性。dyadic数据研究的优势是能够通过分解数百万个具有数十亿非零值的矩阵来分布式计算,并且在分布式Map Reduce集群上变得可行,缺点是在稀疏问题上计算量较大。第三个研究是关于可扩展在线协作过滤的研究。此项研究是谷歌用来研究新闻数据的大动态性。Google新闻个性化采用了几种方法,如概率潜在语义索引(PLSI)和Min Hash过滤来确定提供新闻建议的最佳方法。Google新闻协同过滤的优势在于动态预测,Google新闻的离线培训能够提供可随新消息即时更改的动态建议;缺点是无法运行大型数据集,同时保持在磁盘上需要很长时间。最后的研究是Mymedialite图书馆的研究。Mymedialite是进行研究推荐系统的图书馆的几个组织之一。Mymedialite研究的意义在于服务于隐含和显性评价的数据收集两个常见情景。本文主要介绍了推荐系统的方法,类别,技术,问题和近期研究等实际情况,并且结合两项相似度(距离相似度和属性相似度)得以实现。本文将该方法应用于推荐系统的三个阶段,即信息收集阶段,学习阶段和预测/推荐阶段。信息收集阶段是预处理阶段,处理包含13283个电影,22032个用户和156278个评级的Movie Tweetings数据集来产生所需数据集。该Movie Tweetings数据集通过ratings.dat(以userid,movieid,rating和timestamp的格式)和movies.dat(具有movieid,电影标题,类型的格式)分成两个数据集评级数据集(用户标识,电影标题和评级)和电影数据集(电影和电影类型)。数据设置使用后,系统将对用户行为进行检查,计算用户之间的相似距离将该数据集被分成三个矩阵:存储在系统中的电影评级,电影标题和电影类型,然后可以进入学习阶段。在第二阶段或学习阶段,系统使用前一阶段准备好的数据集,基于距离相似度和类别相似度来检查用户之间的相似度。用户之间的距离相似度由欧式距离相似度技术计算,因为它被认为是最快的相关相似度技术之一。欧几里得距离用来比较特定项目的用户实际评分之间的相似度。在另一种情况下,使用Jaccard指数相似性技术来计算类别相似度。Jaccard指数相似性可以确定两个用户的偏好的交集。第三阶段即预测/推荐阶段为每个用户计算多个商品项的预测。预测是通过两种方法估计的,即CFSIA-1和CFSIA-2。CFSIA-1利用了与类型相似度的距离相似度乘法,CFSIA-2定义了距离相似度和类型相似度概要的平均值。在得到预测评分后,通过将评分从高到低进行排序来完成推荐。为了评估以上方法预测的准确性,本研究使用了两个评估指标度量:均值绝对误差和均方根误差。平均绝对误差和均方根误差。平均绝对误差被认为是衡量推荐系统精度的一种直接方法,均方根误差被认为是度量数值预报方法的一个很好的应用。实验结果在不同的环境下进行了数次。首先是对整个数据集精度的测试,其次将其应用于用户平均评分项目平均评分,随机评分,流派相似性评分,距离相似性评分,CFSIA-1评分和CFSIA-2评分等7种推荐系统。在整个数据集测试中,所提出的方法CFSIA-1和CFSIA-2的准确性显示出了令人满意的结果,即使距离相似性评分略高于两种提出的方法。测试的第二个环境是对几个已经评出40部或更多电影的用户进行测试。第三个测试与第二个测试类似,但测试应用于几个用户,他们的评分为20项或更低。对4种推荐系统的类型相似度、距离相似度、CFSIA-1和CFSIA-2进行了二次测试和第三次测试。第二个和第三个测试目的是进一步研究这4种方法的优缺点。最后的测试结果证明了距离相似检验的优越性。最后的测试结果证明了距离相似检验的优越性。在常用的等级预测方法中,距离相似效果很好,但对于许多存在多样性和长尾等问题泛滥问题的项目,该方法都具有独特的优势。进一步的实验是检查所提出的方法的强度。实验包括多样性和长尾等问题分析,特殊用户分析,托攻击分析和相似性相关分析。多样性和长尾等问题分析是通过检查数据集的多样性来检验的,它得出的结论是,数据集中的大多数评级只是发生在新的未来项目上(按年计算)和热门项目(按等级)。新的和流行的项目越来越受欢迎,同时旧的和不受欢迎的项目是淹没在数据集。这种情况正在影响项目预测的计算。有了不平衡评级,预测可能不太准确。评级数据集中可能出现的另一个问题是特殊用户和托攻击。为了测试这个问题,对数据集进行随机评分。对提供的数据集进行特殊用户和托攻击测试的结果表明,所提出的方法CFSIA-1对于随机等级攻击是鲁棒的。除推荐问题分析外,本文还采用相似相关分析法对所提出的方法进行了优化。方法优化的目标是通过每个相似优势的选择过程来减少预测误差,提高精度。为了达到优化目标,在CFSIA-1方法上应用阈值测试。阈值是找出距离相似度和风格相似度的最佳平衡。一旦阈值被分配,优化的CFSIA-1的结果比包括距离相似性方法在内的其他方法的结果更好。为了评估CFSIA-1的优化方法,应用线性回归分析测试。比较回归模型是传统线性回归模型(TLRM)和相似回归模型(SRM)。TLRM方法使用两个变量进行预测。用户A评分的预测是基于用户B评分。SRM方法使用三个变量进行预测。用户A的预测是基于其他用户评分以及其他用户之间的相似度。用准确性,速度性能和数据丢失性能来比较优化的CFSIA-1和线性回归方法。SRM方法在计算精度上优于OCFSIA-1,CFSIA-1和TLRM。SRM方法的精度在MAE计算中相差0.04076,在RMSE计算中相差0.14049。即使SRM方法的准确性略微胜过OCFSIA-1,它在整个数据集测试中损失了14%的数据丢失和多用了49%的处理时间。对于几组用户的测试结果,SRM的准确性也稍微优于OCFSIA-1,但仍然有数据丢失(8%-10%),使用了更长处理时间(超过100%)。在不考虑大量数据损失和更长的执行时间的情况下,与这两种方法相比,OCFSIA-1可以被认为是最有效的。综上所述,CFSIA-1优化的结果能够克服这一弱点,克服其他技术的精度。综上所述,优化后的CFSIA-1算法在多组实验测试的基础上,在处理多样性和长尾等问题、特殊用户和托攻击方面都优于任何其他方法。本文的结论来自评级数据集的预测一致性、所有项目的平均普及率以及对评级数据集的攻击鲁棒性。因此,本文的贡献可以概括为利用属性相似度和距离相似度结合处理多样性和长尾等问题、特殊用户问题和托攻击问题而不降低预测精度和速度的新方法表示。
其他文献
机体滚动轴承是飞机机械设备支承和维持转动的关键基础零部件,轴承的性能直接影响着飞机运行过程中的安全性与可靠性。很大程度上,滚动轴承的性能取决于轴承材料特性,轴承套圈的硬度和残余应力等参数的梯度分布直接影响其服役寿命,且这种分布特性与套圈滚道淬火工艺密切相关。而感应淬火工艺具有加热平稳、效率高、可对工件需要加热的部位选择性加热以及节能、环保等诸多优势,满足轴承套圈淬火要求。但是感应淬火是一个涉及到电
随着三维扫描、图像处理以及标准CAD模型表达技术NURBS的迅速发展与广泛应用,通过三维扫描技术将获取到的高精度STL模型向通用CAD模型之间转换的需求更加突出。因此,提出研究
高速公路的建设拉近和密切了城市间的距离,打破了城乡间的隔阂,带动了沿线区域经济的发展,然而,高速公路规模的迅速扩张,导致了资本需求的急剧增加,除去政府资金配置后,高速公路企业的投资现金流无法覆盖所有投资,仍存在较大的资本缺口,加重了企业的债务负担,高速公路企业不能按时支付施工单位工程款的事件时有发生。为保证高速公路行业持续健康的发展,本文根据国家的相关政策和文件,着眼于高速公路企业,将债转股这一政
药物缓释材料是缓释体系的重要组成部分,可调控药物释放速度,提高药效,然而在制备过程中可能产生较大能耗,因此寻找可以负载药物、生物相容性好且制备能耗低的缓释材料成为研究热点。新疆特色植物——罗布麻具有天然抗菌性能,可制备成高长径比和高比表面积的纳米纤维素(CNF);沙棘提取物天然无毒,可以降低滥用抗生素而产生的耐药性,将两者通过乳液静电纺丝负载,制备高生物相容性且缓释效果优异的新型抗菌生物材料,为开
我国山地、高原面积广大,山区面积占到国土总面积的69%,因此山区道路成为我国道路交通系统的重要组成部分。而配备有传统自动变速器的车辆在坡道行驶时往往会在动力性、安全
聚乙烯(PE)管材近年来被广泛应用在市政给排水和城市燃气管道系统,而慢速裂纹增长(SCG)是PE管材发生脆性破坏的主要原因,若燃气管道破裂则会引起燃气泄漏会造成严重的人身危险和财产损失,故管材耐SCG性能是评判其能否长期使用的重要指标。目前,传统的SCG试验普遍存在试验时间过长问题,限制了对PE管材耐SCG性能的准确评价,降低了 PE管材的开发速度。对此,国外学者提出了快速评价方法-全切口蠕变试验
图结构具有很强的表达能力,现实世界中诸多实体以及实体之间的联系可以抽象成图中的顶点和边,通过分析图数据来挖掘有价值的信息,具有重要的现实意义。近几年来,图数据迅速增
我国自改革开放以来,城市化进程和经济得到的飞速发展,人民生活水平不断提高,对建筑的室内环境要求也越来越高,建筑业的能耗比例也随之增加。夏热冬冷区经济发达,人口密集,建筑资源消耗量大,尤其是新建和即有公共建筑,单位面积建筑耗电量是住宅建筑的10倍以上。因此降低夏热冬冷区公共建筑能耗,提升室内环境质量具有重要意义。而建筑的围护结构会直接影响建筑与周围环境的热量交换、自然通风、采光,进而影响建筑能耗。本
精准医学是医学领域中的全新模式,是融合了生物学、计算机科学、大数据等多项领域而形成的新兴领域,其将患者个体特症、生活环境等因素与各项生物技术相融合,利用基因检测等先进生物技术手段对个体实现精准诊断与治疗,并识别疾病遗传传播的风险,对未来疾病风险进行高效准确的评估,进而提升人类整体健康水平,节约社会医疗资源。本文在阐述了精准医学内涵、历史发展及其特征后,提出精准医学的主要应用领域为癌症诊断与治疗、临
CCD图像在采集、传送和转换的过程中,由于其设备的机械运动、系统内部电路以及器材材料等因素,会导致CCD图像染有噪声,从而会降低图像质量、增大实验误差,给实验后续深度处理造成影响。小波阈值去噪法是当前图像去噪的主要技术手段。但传统的软、硬阈值函数和传统的阈值估计规则都因为其自身所具有的一些局限性,已经不能够满足图像去噪领域的需求。例如:传统硬阈值函数在阈值处不连续而造成图像重构后出现Pseudo-