基于概率矩阵分解的推荐算法研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:zhangdeting
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
推荐系统是信息过滤系统中的一种特殊形式,通过分析用户的历史兴趣和偏好信息,在项目空间中确定用户现在或者将来可能会喜欢的项目,进而主动向用户提供相应的项目推荐服务。随着互联网信息量的快速增长和人们希望有效获取感兴趣信息的需求日益明确,推荐系统在国内外也逐渐引起了业界和学术界的广泛关注和研究。推荐算法作为机器学习、数据挖掘领域的一项研究热点,其中有效数据的稀疏性,大量用户和推荐项目没有历史评价记录,以及推荐精准性和多样性之间的平衡是推荐算法研究中的难点。  本文首先介绍了推荐算法领域经典的协同过滤方法和近年来热门的矩阵分解算法以及其加入信任网络传播的模型,为了整合来自各数据源的海量的原始数据,讨论了对各推荐应用场景下数据模型进行清洗,整合归一化的ETL方法,和该ETL过程中的容错算法。提出了推荐系统海量数据条件下的更新策略,以及 ETL错误快速恢复算法的配置和日志设计,为后续推荐算法的有效应用提供了必要的数据准备。  随后,针对目前推荐系统中冷启动用户问题,本文尝试对常用的推荐算法作一定的改进,通过对推荐过程的多臂赌博机(bandit)方法建模,评价前N次推荐序列的准确性。具体而言,本文采用最大化置信上界(UCB)作为bandit决策的标准产生推荐,同时引入概率矩阵分解算法通过随机梯度下降法能学习得到用户、项目的后验概率,直接带入 UCB决策方程实现了推荐与学习的同步。此外,本文还应用了基于贝叶斯概率矩阵和基于变分贝叶斯方法的置信上界多臂赌博机推荐算法,分别从随机和定量的角度解决概率矩阵分解中参数整定困难的不足,并直接通过迭代中间变量估计评分值得统计量。此外,本文通过MovieLens和 Netflix公开数据集对提出的算法做了离线验证,结果显示它们有效的提升了冷启动用户条件下的推荐准确度。为使推荐算法更好地运用于实际系统,本文在验证结果的基础上进一步分析了模型参数对于推荐结果的影响以及不同数据环境下的参数优化组合。最后,本文给出了基于所提出ETL容错策略和推荐算法的系统设计实现架构和主要技术。
其他文献
光机组件是某飞行器上的重要组成部件,在航空航天领域得到了广泛的应用,因此需要在光机组件出厂前对其电气性能进行测试,以保证其能正常工作。文中围绕构建基于虚拟仪器架构的光
在控制领域中,存在着大量的非线性慢时变系统,其中的带有本质非线性环节的系统尤其难以得到好的控制效果。系统辨识是控制的基础,而目前传统的理论不能提供普遍适用于各种非线性
生化分析仪是一种医疗机构进行临床诊断所的设备仪器。它可以快速准确的对人体体液的生化指标。这些常规生化指标可以帮助医生诊断疾病。生化分析仪在临床诊断和化学检验中具
随着新能源技术的发展,大功率电力电子开关设备的普及与应用所带来的电能质量问题已日益突出,各行各业对电网电能质量的要求也越来越高,因此深入研究实现电能质量的全面监测、控制和管理,具有重要的社会意义和经济意义。针对目前在进行谐波检测时存在频谱泄漏、柵栏现象等问题,本文首先提出了一种基于小波补偿的加窗插值FFT谐波分析改进算法。该方法利用Mallat算法多分辨率特性,可以快速、有选择地对干扰信号进行准确
随着计算机运算速度的提升和密码分析学的不断发展,密码编码学将面临空前的挑战。两大世界级散列算法相继被破解后,设计新的散列函数成为密码学领域的研究热点。混沌映射因其具
基于ATM的宽带网将支持来自VBR视频编码器的业务量,VBR视频编码能保持恒定图像质量.VBR实时视频源特性的分析在设计ATM网时是非常重要的.ATM网络特性如信元丢失率、传输延迟
论文首先讨论了采用传统方法开发金属管件加工行业管理信息系统所运用到的关键技术,说明了利用传统方法开发应用程序的全过程.着重论述了分析、设计辅料和质量管理系统的各个
三维重建作为计算机视觉领域的一个核心问题,在当下有着越来越大的应用需求和发展前景。而其中,城市场景的重建对于生产生活有着尤其重要的影响。在众多获取场景三维信息的方
该文以宝钢科研项目结题综合评价系统为工程背景,分析了原有的评价系统存在的缺点,在广泛研究现有评价系统的基础上,设计了适合宝钢实际情况的评价系统.首先,建立了可以充分
近年来,CPLD/FPGA技术迅速发展,已经成为数字信号处理的重要技术之一.该文讨论的就是应用CPLD/FPGA来实现两个专用信息处理模块的设计.它们分别是图象压缩系统的图象反变换模