协同过滤算法中数据稀疏性问题研究

被引量 : 0次 | 上传用户:hasfyturnip
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息时代,互联网的覆盖率和普及度越来越高,同时也推动了电子商务融入人们的生活中,网络数据信息呈现出爆炸式的增长。人们将花费更多的时间去寻找他们想要的东西,这个现象被称作“信息过载”。如何解决这个问题对电子商务平台来说非常重要,推荐系统的出现填补了这一空白,其中基于协同过滤算法更是取得了很大的成功。然而随着电商平台的用户数和项目数的大幅度增加,被评分的项目比例越来越小,使得用户-项目评分矩阵变得十分稀疏,从而造成传统的协同过滤推荐算法的推荐准确度有所下降。数据稀疏问题使得采用协同过滤算法的推荐系统法面临严重不足。本文针对该问题,从结合条件概率算法、浮动筛选邻居和分步填充用户-项目评分矩阵中的未评分项目三个角度出发缓解数据稀疏性问题,提高推荐精度。第一,本文提出一种基于条件概率的算法,该算法从概率的角度可以挖掘传统协同过滤算法发现不了的邻居,并使得该邻居对目标项目进行预测评分,然后综合采用通常的协同过滤算法而获取的邻居对目标项目的评分,加权综合后产生最终的评分数值。第二,在筛选邻居的时候,放弃kNN选取固定k个邻居的做法,而是设定一定的相似度阈值和共同评分项目数阈值,然后只将达到阈值的用户作为目标用户的邻居,使选取的邻居更加可靠。第三,在对未评分目标项目进行预测时,分两步进行。第一步设定严格的相似度阈值和共同评分项目数阈值,然后只将达到阈值的用户作为目标用户的邻居,然后填充部分未评分项目;第二步,在第一步部分填充后得到的评分矩阵较原始评分矩阵将更为稠密,在此基础之上,部分以前不能成为目标用户邻居的用户将能够满足条件成为其邻居,从而能得到更多的邻居,再适当放宽条件限制,使得能够将用户-项目评分矩阵的剩余未评分项目进行完全填充。最后,本文采用MovieLens数据集,用Eclipse编写该算法进行实验。实验表明:浮动筛选邻居策略筛选的邻居比kNN策略更具可信度,MAE值更低;条件概率算法能发现潜在的邻居,弥补数据稀疏性;分步填充策略能很好地弥补数据稀疏性,提高推荐精度。
其他文献
1995年3月15日,河南省某市一宾馆发生一起226人食物中毒。根据流行病学调查、中毒临床表观及实验室检查,证实为布洛克利沙门氏菌食物中毒,原因食品系红烧鱼。经医学文献检索,由该
建设施工企业的成本管理是企业发展的永恒主题,是施工企业经济管理的基本点。施工企业从项目施工中标、签约至工程建设、保修期结束的全过程、全方位都存在管理、消耗与施工产
目的探讨儿科门诊静脉输液治疗中护理风险管理模式的实施和临床效果。方法随机选取2016年8月至2017年8月我院儿科门诊收治的静脉输液患儿94例为研究对象,按照单双数法将其随
填海造陆作为我国沿海地区解决人地矛盾的重要途径,对我国社会经济发展发挥着不可替代的作用,填海区逐渐成为了城市新的发展空间,其特性对城市未来发展有着重要影响。目前我国围
随着经济全球化和市场竞争的加剧,供应商管理越来越受到企业界的重视,其中供应商评价与选择在企业发展中起着非常关键的作用,直接影响企业的市场竞争力,成为企业发展战略的一个重
《傲慢与偏见》是英国作家简·奥斯汀的代表作。在这部小说中,作者对五位青年男女对爱情、婚姻的看法与作法,进行了深入的人物剖析。其目的是要将他们的婚姻观念、爱情观念表
做好电子档案管理是新时期档案管理工作的重要任务。电子档案是人们在日常工作和社会活动中形成的一种通过数字电脑操作、传输或处理并按照一定的格式记录,最终通过计算机识
随着经济全球化和区域一体化的不断深入,以及中国加入世界贸易组织,市场对外开放,国内广大的企业直接面临来自全球企业的竞争。国内的企业只有具备自己的核心竞争力,才能在市
政论纪录片是宣传与解读党和政府政策的重要方式,政论纪录片具有凝聚民心和塑造形象等功能,提升意识形态传播的有效性。高校思想政治理论课不仅是理论知识的传授,也是思想的
<正>随着社会的发展和进步,高校音乐教学受到了非常广泛的关注,每年都有数不胜数的学生报考音乐专业,各个高校的音乐教学水平也得到了不断地提高。我国目前的高校音乐教学并