论文部分内容阅读
网络内容的增加造成了数据的过载,并创造了多样化的数据信息。大量的数据和各种各样的选择导致用户在决策方面的困惑。由于决策不善,某些信息可能会丢失和曲解。解决问题的办法是应用推荐系统,帮助用户过滤信息和预测正确的决策。协作过滤是流行推荐系统技术之一,自发明以来已经得到极大的改进。协同过滤技术的原理是基于其他邻居的相似评价的识别。推荐系统不会立即简化用户的决策,因为推荐系统本身存在一些挑战和问题。例如,冷启动、数据的稀疏性、数据规模巨大、特殊用户、托攻击,多样性和长尾等问题泛滥等问题。本文研究了多个当今最先进的推荐技术,例如Amazon.com的商品过滤、Netflix挑战研究的dyadic数据分析、Google新闻的可扩展在线协同过滤、Mymedialite推荐系统库。第一个研究是Amazon.com的商品协同过滤。通过比较用户的行为,亚马逊选择了计算采购产品之间的余弦相似度方法,为特定用户选择和建议最相似的产品。亚马逊有大量的信息是亚马逊利用这种方法原因之一。商品-商品协同过滤的优点是:能够处理大数据集,实时推荐结果和用户聚类模型,缺点是需要大量的离线训练时间。第二个研究结构迭代法的并行数据研究。该研究本身使用了矩阵分解,这种常用的工具用于处理数据分区,以最大化数据局部性和并行性。dyadic数据研究的优势是能够通过分解数百万个具有数十亿非零值的矩阵来分布式计算,并且在分布式Map Reduce集群上变得可行,缺点是在稀疏问题上计算量较大。第三个研究是关于可扩展在线协作过滤的研究。此项研究是谷歌用来研究新闻数据的大动态性。Google新闻个性化采用了几种方法,如概率潜在语义索引(PLSI)和Min Hash过滤来确定提供新闻建议的最佳方法。Google新闻协同过滤的优势在于动态预测,Google新闻的离线培训能够提供可随新消息即时更改的动态建议;缺点是无法运行大型数据集,同时保持在磁盘上需要很长时间。最后的研究是Mymedialite图书馆的研究。Mymedialite是进行研究推荐系统的图书馆的几个组织之一。Mymedialite研究的意义在于服务于隐含和显性评价的数据收集两个常见情景。本文主要介绍了推荐系统的方法,类别,技术,问题和近期研究等实际情况,并且结合两项相似度(距离相似度和属性相似度)得以实现。本文将该方法应用于推荐系统的三个阶段,即信息收集阶段,学习阶段和预测/推荐阶段。信息收集阶段是预处理阶段,处理包含13283个电影,22032个用户和156278个评级的Movie Tweetings数据集来产生所需数据集。该Movie Tweetings数据集通过ratings.dat(以userid,movieid,rating和timestamp的格式)和movies.dat(具有movieid,电影标题,类型的格式)分成两个数据集评级数据集(用户标识,电影标题和评级)和电影数据集(电影和电影类型)。数据设置使用后,系统将对用户行为进行检查,计算用户之间的相似距离将该数据集被分成三个矩阵:存储在系统中的电影评级,电影标题和电影类型,然后可以进入学习阶段。在第二阶段或学习阶段,系统使用前一阶段准备好的数据集,基于距离相似度和类别相似度来检查用户之间的相似度。用户之间的距离相似度由欧式距离相似度技术计算,因为它被认为是最快的相关相似度技术之一。欧几里得距离用来比较特定项目的用户实际评分之间的相似度。在另一种情况下,使用Jaccard指数相似性技术来计算类别相似度。Jaccard指数相似性可以确定两个用户的偏好的交集。第三阶段即预测/推荐阶段为每个用户计算多个商品项的预测。预测是通过两种方法估计的,即CFSIA-1和CFSIA-2。CFSIA-1利用了与类型相似度的距离相似度乘法,CFSIA-2定义了距离相似度和类型相似度概要的平均值。在得到预测评分后,通过将评分从高到低进行排序来完成推荐。为了评估以上方法预测的准确性,本研究使用了两个评估指标度量:均值绝对误差和均方根误差。平均绝对误差和均方根误差。平均绝对误差被认为是衡量推荐系统精度的一种直接方法,均方根误差被认为是度量数值预报方法的一个很好的应用。实验结果在不同的环境下进行了数次。首先是对整个数据集精度的测试,其次将其应用于用户平均评分项目平均评分,随机评分,流派相似性评分,距离相似性评分,CFSIA-1评分和CFSIA-2评分等7种推荐系统。在整个数据集测试中,所提出的方法CFSIA-1和CFSIA-2的准确性显示出了令人满意的结果,即使距离相似性评分略高于两种提出的方法。测试的第二个环境是对几个已经评出40部或更多电影的用户进行测试。第三个测试与第二个测试类似,但测试应用于几个用户,他们的评分为20项或更低。对4种推荐系统的类型相似度、距离相似度、CFSIA-1和CFSIA-2进行了二次测试和第三次测试。第二个和第三个测试目的是进一步研究这4种方法的优缺点。最后的测试结果证明了距离相似检验的优越性。最后的测试结果证明了距离相似检验的优越性。在常用的等级预测方法中,距离相似效果很好,但对于许多存在多样性和长尾等问题泛滥问题的项目,该方法都具有独特的优势。进一步的实验是检查所提出的方法的强度。实验包括多样性和长尾等问题分析,特殊用户分析,托攻击分析和相似性相关分析。多样性和长尾等问题分析是通过检查数据集的多样性来检验的,它得出的结论是,数据集中的大多数评级只是发生在新的未来项目上(按年计算)和热门项目(按等级)。新的和流行的项目越来越受欢迎,同时旧的和不受欢迎的项目是淹没在数据集。这种情况正在影响项目预测的计算。有了不平衡评级,预测可能不太准确。评级数据集中可能出现的另一个问题是特殊用户和托攻击。为了测试这个问题,对数据集进行随机评分。对提供的数据集进行特殊用户和托攻击测试的结果表明,所提出的方法CFSIA-1对于随机等级攻击是鲁棒的。除推荐问题分析外,本文还采用相似相关分析法对所提出的方法进行了优化。方法优化的目标是通过每个相似优势的选择过程来减少预测误差,提高精度。为了达到优化目标,在CFSIA-1方法上应用阈值测试。阈值是找出距离相似度和风格相似度的最佳平衡。一旦阈值被分配,优化的CFSIA-1的结果比包括距离相似性方法在内的其他方法的结果更好。为了评估CFSIA-1的优化方法,应用线性回归分析测试。比较回归模型是传统线性回归模型(TLRM)和相似回归模型(SRM)。TLRM方法使用两个变量进行预测。用户A评分的预测是基于用户B评分。SRM方法使用三个变量进行预测。用户A的预测是基于其他用户评分以及其他用户之间的相似度。用准确性,速度性能和数据丢失性能来比较优化的CFSIA-1和线性回归方法。SRM方法在计算精度上优于OCFSIA-1,CFSIA-1和TLRM。SRM方法的精度在MAE计算中相差0.04076,在RMSE计算中相差0.14049。即使SRM方法的准确性略微胜过OCFSIA-1,它在整个数据集测试中损失了14%的数据丢失和多用了49%的处理时间。对于几组用户的测试结果,SRM的准确性也稍微优于OCFSIA-1,但仍然有数据丢失(8%-10%),使用了更长处理时间(超过100%)。在不考虑大量数据损失和更长的执行时间的情况下,与这两种方法相比,OCFSIA-1可以被认为是最有效的。综上所述,CFSIA-1优化的结果能够克服这一弱点,克服其他技术的精度。综上所述,优化后的CFSIA-1算法在多组实验测试的基础上,在处理多样性和长尾等问题、特殊用户和托攻击方面都优于任何其他方法。本文的结论来自评级数据集的预测一致性、所有项目的平均普及率以及对评级数据集的攻击鲁棒性。因此,本文的贡献可以概括为利用属性相似度和距离相似度结合处理多样性和长尾等问题、特殊用户问题和托攻击问题而不降低预测精度和速度的新方法表示。