论文部分内容阅读
互联网时代,数据呈爆炸式增长,前所未有的数据量远远超过受众的接收和处理能力,因此,从海量复杂数据中有效获取关键性有用信息成为必须解决的问题.面对信息过载问题,人们迫切需要一种高效的信息过滤系统,“推荐系统”应运而生.20世纪90年代以来,尽管推荐系统在理论、方法和应用方面取得了系列重要进展,但数据的稀疏性与长尾性、用户行为模式挖掘、可解释性、社会化推荐等问题仍然是其面临的重要挑战.进一步地,伴随互联网及信息技术的持续飞速发展,用户规模与项目数量急剧增长,相应地,用户行为数据的稀疏性、长尾性问题更加凸显.面对上述挑战,本文针对数据稀疏性挑战下的“经典相似性度量的失效问题”“近邻推荐对稀疏数据的敏感性问题”、数据长尾性挑战下的“可解释性问题”“社会化信息融合问题”开展协同过滤推荐方法的创新性研究.主要研究成果概括如下:(1)针对用户评分矩阵稀疏情境下经典相似性度量的失效问题,提出了基于极端评分行为相似度的近邻推荐方法.面对数据稀疏情境下共同评分项目极少现象引致的经典相似性度量失效或度量不准确问题,着眼于用户共同极端评分行为的深入分析,建立了用户之间的极端评分行为指数;通过将极端评分行为指数作为权重融入传统的相关系数,构造了非线性相关关系与线性相关关系相融合的相似性度量准则.实验比较结果表明,基于极端评分行为相似度的近邻推荐方法,可以更为精细地刻画用户之间的相关关系,进而提升推荐的预测精度.(2)针对近邻推荐对稀疏数据的敏感性问题,提出了融合近邻信息的概率矩阵分解推荐方法.面对评分矩阵中由于共同评分项目有限而导致近邻推荐中仅能获取数量非常有限的近邻进而影响推荐效果稳健性的问题,引入基于极端评分行为的相似度构造近邻矩阵,缓解近邻获取的不稳定性问题;着眼于概率矩阵分解可以自适应拟合评分矩阵进而具有推荐预测稳健性的优势,建立了融合极端评分行为、近邻关系以及概率矩阵分解模型的协同过滤推荐方法.实验比较结果表明,融合近邻信息的概率矩阵分解推荐方法,在推荐预测精度方面具有较好的稳健性优势.(3)针对长尾推荐的可解释性问题,提出了基于三因素概率图模型的长尾推荐方法.面对长尾推荐过程中推荐系统、用户对“具有可解释性的长尾项目推荐”的现实需求,着眼于概率图模型在因果关系方面的可解释性优势,立足于“新颖性+准确性”综合考量的算法设计目标,建立了基于用户活跃度、项目非流行度和用户-项目偏好水平的三因素概率图推荐方法.实验比较结果表明,具有可解释性优势的三因素概率图推荐方法在保证一定预测精度的前提下具有更好的新颖性推荐效果.(4)针对长尾推荐的社会化信息融合问题,提出了融合社交网络信息的长尾推荐方法.面对长尾推荐任务中“用户更倾向于信任来自朋友的推荐”这一基本观点,着眼于社交网络信息与评分矩阵信息融合视角,通过社交网络和评分矩阵共享用户的潜在特征向量,并将好友推荐信息纳入概率图模型中的长尾推荐影响因素框架,建立了融合社会化信息的概率图推荐方法.实验比较结果表明,融合社交网络信息的长尾推荐方法在保证较高预测精度的同时,具有更优的长尾推荐效果.综上所述,本文面向用户数据的稀疏性与长尾性挑战,综合运用相似度计算、近邻推荐、概率矩阵分解、概率图等技术,提出了系列协同过滤推荐方法,为缓解互联网时代的信息过载问题提供了一些重要的研究成果.研究成果丰富和发展了推荐系统的模型与方法体系,在电商网站、社交媒体等各类推荐场景中具有广泛的应用前景.