基于二分图推荐算法的电影推荐系统的设计与实现

来源 :南开大学 | 被引量 : 0次 | 上传用户:wessyy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎在越来越多的海量的信息资源中的检索,没有考虑用户的个性化需求,而是查询某一关键词时,返回的结果往往都是一致的,不能为每个用户返回其所需的特定信息。   个性化推荐是解决该问题的有效途径。当前主要的个性化推荐算法如基于内容、基于协同过滤的推荐算法以及两种算法的结合体这三类推荐算法,虽然可以满足用户的个性化需要,但仍还存在很多函待解决的问题。这些问题包括:新用户、新项目问题,数据的稀疏性问题,算法的可扩展问题,用户隐私与安全问题,孤立点用户问题等问题。   本文实现了一种基于二分图上资源扩散原理的推荐算法。并通过分析该推荐算法所存在的问题,并给出了针对该算法提出基于该算的两点改进。首先改进算法使算法抑制热门电影的推荐度,使冷门电影也能被推荐。其次改进算法使算法削弱电影间多级关联关系对推荐度计算的影响。本文的主要工作包括以下三个方面:   (1)本文分析得出在推荐系统中推荐冷门电影比推荐热门电影,更能提升系统推荐的精确度。对此本文改进了原二分图推荐算法,使算法可以抑制热门电影的推荐度,使更多冷门的电影被用户选择,从而提升了推荐的精确度。   (2)本文还分析得出在电影数据中有大量高阶关联关系的存在,这些高阶关联会使推荐度计算产生较大误差,进而影响系统推荐的精确度。本文提出一种策略可以减小这些高阶关联关系的影响,最终可以提升推荐的精度。   (3)从大量的电影中为每一个用户计算出其最喜欢的K部电影的计算量较大,本为提出采用最小堆算法来计算用户未选择电影中的前K部推荐度最高的电影。该算法的性能表现优于排序算法以及选择算法。   最终应用以上提出的处理策略设计并实现一个电影推荐系统,其运行的效果表明文中给出的策略有效可行,较好地解决了推荐系统中存在的数据稀疏、冷启动以及可扩展性问题,同时算法的推荐精度也较原算法有所提高。
其他文献
随着计算机和通信技术的迅猛发展,网络也正朝着大规模、高度分布式的方向发展,同时计算机系统及其网络的被入侵行为也朝着规模化、分布化、复杂化等方向演化。由于各种网络安
车牌识别系统、(License Plate Recognition System,LPRS)是智能交通系统(Intelligent Transport System,ITS)一个重要组成部分。随着我国经济的飞速发展,汽车的总量也大幅度
k-近邻(KNN)算法是一种简单而有效的分类算法。传统的KNN分类算法存在着参数k难以确定以及分类新数据时间耗费大的两个缺陷。kNN模型算法(简记KNNModel)是一种基于KNN原理的
某眼镜连锁销售店在日常销售中应用连锁零售销售系统,积累了大量的销售数据,但该系统只支持极其简单的统计查询,无法进行商品关联性、销量和利润预测等分析。因此,本文对该企业原
数据发布中的隐私保护是将数据发布与隐私保护技术相结合,在保护隐私的前提下,发布较为准确的数据,提高信息的利用水平。匿名化限制发布是其主要的技术实现手段。当前以数据
随着Web应用的普及,Web应用程序漏洞以越来越快的速度爆发出来,针对Web应用程序漏洞检测技术的研究正逐渐成为国内外研究的重点和热点。本文介绍了已有的Web应用程序漏洞及其带
H.264是ITU-T的视频编码专家组与ISO/IEC的动态图像专家组联合开发的最新视频编码国际标准。与以前的H.263、MPEG-X等编码标准不同,H.264增加了多模式运动估计、帧内预测、变
根据蛋白质的氨基酸序列预测蛋白质的结构是计算生物学中尚未解决的重要问题之一,而该问题的一个难点是蛋白质中Loop片段的结构。Loop在蛋白质的特征和功能中起着关键作用,但是
基于P2P的实时流媒体技术能够充分利用网络节点资源,减轻服务器压力,扩展系统规模,反映实时特性,因此成为近年来流媒体技术研究的一个热点。时移作为流媒体的关键技术已经在
互联网的飞速发展使Web信息量不断膨胀,网络正在迅速深化。由于大量的信息都隐藏在查询接口之后,无法利用传统的搜索引擎技术获取,这类信息被称为DeepWeb。高速增长的DeepWeb