论文部分内容阅读
随着计算机技术与信息技术的发展,人类步入了大数据时代,出现了信息过载现象,出现的海量信息急需以主动形式及时准确地推荐给潜在对其感兴趣的用户。而推荐系统难以避免的存在数据稀疏性问题,2010年问世的因子分解机相较其他机器学习模型对数据稀疏性具有更好的适应性。但是对于推荐领域中另一难题,即冷启动问题,因子分解机模型仍有待改进。本文提出了交互式分解机模型,它将一个交互项整合进因子分解机,使其具备训练冷启动环境下的稀疏性数据集的能力。交互项被设计成为一种计算书籍文本相似度的函数,有别于协同过滤原理需要积累一定数量规模的用户与信息特征间接计算相似度,交互项能够以提取文本关键词的方式直接计算两个及以上文档的相似性,并将结果返回进分解机中。设计了一种交互强度控制机制,通过定义交互强度因子,控制交互项介入分解机的程度。交互强度因子能够根据冷启动环境的强弱适时减小交互项的介入的程度,甚至是关闭交互项。实验证明交互式分解机i-FM较常用的机器学习模型SVM对稀疏性数据集学习更加有效,即使在冷启动环境中,也能有相对较高的预测精度。本文主要创新如下:(1)提出了交互式分解机的机器学习模型,通过整合交互项于因子分解机中,使其不仅能适应书籍推荐中稀疏性数据集的训练,并且能适应冷启动环境下的训练任务。(2)设计了一种全新的记忆衰减型交互强度因子,它是一个关于新增特征数量的递减函数,通过检测新出现的特征数量来控制交互项适时启用与停止,在冷启动环境下部分或者完全代替分解机中的交叉项来训练新增数据特征,并且适时控制交互项介入分解机的程度。(3)从理论与实验双重角度分析了交互式分解机模型在随机梯度下降法与交替最小二乘法这两项学习算法下的运行性能,证明了交替最小二乘法对i-FM的训练效果相对较佳。模型与算法中相关理论推导过程连续完整,引理与定理均予以数学证明。