协同过滤算法中的数据稀疏性问题研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:jjandrew1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,大量信息充斥着各类互联网平台,如电子商务平台,社交网络平台和在线教育平台等。而人们精力有限,只能处理非常有限的信息,这就是信息过载问题。为解决这一问题,推荐系统应运而生。推荐系统能够根据用户在各平台上已有的行为历史,挖掘出用户的潜在偏好,从而向其推荐相应的物品。协同过滤是目前最为流行的推荐算法之一,它已被工业界广泛应用,并且在研究领域也颇受重视。协同过滤算法的主要出发点是“协同”,即根据已有的用户—物品交互历史,利用众人或众物品的集合智慧进行推荐。  数据稀疏性问题是协同过滤技术所面临的最为严峻的难题之一,它是指已有的用户—物品交互历史占所有用户—物品的比例非常少,因此不能很好的学习到用户和物品的特征,从而大大降低了推荐系统性能。现有的系统主要通过利用一些额外信息,如用户社交信息、物品内容信息和上下文信息,来更好的学习用户和物品特征。然而,现有的方法一方面,没有综合利用所有信息来全面的学习用户和物品特征;另一方面,没有充分挖掘各类信息所蕴含的价值,因此,他们的推荐性能受到了限制。再者,现有方法主要利用额外信息来缓解数据稀疏性问题,在额外信息也非常稀疏的情况下时效果不佳。因此,需要创新的思路和方法来解决这一问题。此外,标签系统近年来发展迅速,很多平台上都添加了标签功能。标签系统中的特殊信息(即标签)可以用于缓解其上的数据稀疏性问题,从而提升推荐性能。然而,现有的大多方法忽略了平台的特殊性,它们利用一般性的方法处理特殊平台上的数据稀疏性问题效果也不理想。文本提出了若干方法来更好的解决数据稀疏性问题及现有研究所存在的问题。论文的主要工作和贡献概括如下:  为了综合利用所有信息并充分挖掘各类信息所蕴含的价值来全面的学习用户和物品特征,提出了一个上下文感知的协同主题回归及社交矩阵分解模型。首先,基于上下文信息使用聚类方法对用户—物品进行聚类,使得每个子类中的用户—物品有相似的上下文。然后,提出了一个新颖的分层贝叶斯模型,去对每个子类中的未知评分进行预测。我们的方法利用社交矩阵分解去处理评分和用户社交信息,利用主题模型的方法去挖掘物品内容中所蕴含的语义信息。接着,在Epinions数据集中与目前最好的六类方法做对比,实验说明我们的方法具有更好的准确率和召回率。最后,通过实验研究四种不同类别的信息对推荐性能的影响。  为了解决现有方法在额外信息也很稀疏的情况下推荐性能不佳的问题,提出了一个半监督学习与协同过滤算法结合的框架,即链图模型。所提出的链图模型是一个贝叶斯网络和一个马尔科夫随机场的结合。用贝叶斯网络来模拟评分的生成和回归,用马尔科夫随机场来模拟基于评分置信度的评分平滑特点。因此,我们的模型能将贝叶斯网络和马尔科夫随机场有机的结合起来,从而具有他们两个的共同优点,即同时模拟评分的生成、回归和平滑。最后,为了测试模型的有效性,将提出的模型应用于两类主流的潜在因素模型中,并在三个流行的数据集上做了对比实验。实验结果表明,我们的模型跟现有的模型相比在四个评价准则方面都有显著提升,特别是在数据稀疏性场景下。  为了解决标签系统上的数据稀疏性问题,提出了一个能够捕捉标签系统中用户—物品之间语义关联信息的推荐模型。我们的模型首先使用主题模型的方法来挖掘蕴含在标签之中的每个用户和物品的语义信息,然后把每个用户和物品的语义信息与矩阵分解模型结合,最后使用标签的隐式偏好信息来将用户和物品的语义信息关联起来。因此,我们的模型能够捕捉到用户和物品之间的语义关联信息,并能够极大的提升推荐系统的性能,特别是在“无共同评论的数据稀疏性”场景下。最后,在两个非常流行的数据集上做了对比实验,实验结果表明,我们的方法在准确率和召回率方面能够极大的提升已有的推荐系统的性能。
其他文献
在当今的云数据中心,受共享式存储架构和I/O虚拟化技术的限制,虚拟机的存储性能已经成为虚拟机整体系统性能的瓶颈,阻碍了数据密集型应用在云平台上的部署。同时,随着近年来存储
现实世界中充满着各种各样的复杂网络。复杂网络所拥有的一个最普遍和最重要的拓扑属性是社区结构,即网络是由若干个社区组成的。在同一个社区内部,节点与节点的连接紧密,而不同
该文结合国内办公活动的特点,提出了运用CSCW技术进行办公自动化系统的开发的思想,并利用CSCW技术构建了一个办公自动化系统原型,同时在分析CSCW中相关技术的基础之上提出了
该文紧密结合Lotes Notes/Domino开发环境的特点,充分利用其在网络功能和安全性方面的卓越性能,探索出了一套适合在Lotus Notes/Domino上开发工作流应用软件的方法.该方法从
随着人们步入信息时代,人们的日常生活及工作已越来越离不开各种信息数据的处理。日益增长的信息存储量,庞大的用户查询次数,拥塞的网络都使得数据的查询和执行效率成为了一个瓶
该文先将动态车辆视频压缩图像采集到计算机中,并实现了自动将其转化为静态图像序列.经过噪声滤除后,该文采用了一种边缘加强和图像相三的算法,可以把车辆从复杂背景中提取出
随着互联网的快速发展,海量、分布、异构、动态变化的各类信息不断涌现。如何从这些海量信息中挖掘出用户感兴趣的知识,成为当前研究的重点之一。主题模型做为一种近些年兴起的
随着互联网技术的迅速发展,网络承载的业务数量日趋庞大,种类日趋复杂。与此同时,用户对业务主观要求的日益提高,对网络如何有效保障业务的服务质量(Quality of Service,QoS)提出
统计机器翻译是近年来自然语言处理领域最受瞩目的研究热点之一,具有重要的学术研究价值和广阔的应用前景。目前统计机器翻译已经经历了基于词的模型、基于短语的模型、基于句
该文基于黄等所提出 的识别方法,通过定义一类更广泛的隶属函数,获得了含有可调参数的分类器,从而将黄等的分类器作为该文方法的一个特例.借助投影算子理论、子空间理论,对