协同过滤推荐算法的若干问题研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:neoo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
推荐系统通过预测用户对项目的喜好程度来为用户进行信息过滤,应用知识发现技术来生成个性化推荐。协同过滤是一种常用的减少信息过载的技术,已经成为了个性化推荐系统的一种主要工具,被广泛应用于电子商务网站的推荐系统。但随着系统结构、内容的复杂度和用户人数的不断增加,协同过滤技术的一些缺点逐渐暴露出来,主要有精确性、数据稀疏性、冷启动、可扩展性和安全性问题。 协同过滤算法主要分为基于内存的协同过滤和基于模型的协同过滤两类,这两类算法的典型代表分别为最近邻协同过滤算法和基于奇异值分解的算法,前者因其简单适用而被广泛应用于电子商务推荐系统,却通常因数据的极度稀疏性和相似度度量方法的弊端导致算法的精度下降。后者则通过矩阵奇异值分解的降维技术一定程度解决了数据稀疏性问题,然而目前国内对该算法的安全性研究较少。本文将分别以上述两种算法为载体,研究算法的数据稀疏性问题和安全性问题。 为解决协同过滤算法中数据稀疏性问题和传统相似度度量方法的弊端,本文研究了最近邻协同过滤算法在不同的稀疏性问题解决方案下各相似度方法的优化对算法性能的影响。通过实验对现有的各种常用相似度进行了基于用户评分项目并集和基于相关加权因子的优化,分别确定了基于稀疏评分矩阵、缺省评分矩阵和奇异值分解(SVD)预测评分矩阵的最近邻算法中的最优相似度方法,有效地提高了各情况下算法的推荐精度。 为解决协同过滤推荐系统遭受的欺诈攻击带来的安全性问题,本文研究了典型的基于奇异值分解的协同过滤算法的抵御攻击的能力,通过设计不同规模和攻击意图的攻击测试,以平均绝对偏差、平均预测偏移及平均命中率偏差这三种评估参数分析了不同填充规模和攻击规模的攻击用户概貌对攻击效果的影响,同时研究了不同攻击类型的攻击效果差异。
其他文献
随着分子生物学和高通量基因测序技术的飞速发展,大量的DNA序列数据已被测定,这为研究基因家族分子进化提供了必要的前提条件。根据现有生物基因重建基因家族进化史可以推断
访问控制是保障信息系统安全的一种有效手段,它限定只有合法的用户才能拥有合适的访问权限,以防止非法用户或合法用户的非法操作对信息系统造成破坏。委托授权是一种重要的授
呼叫中心是企业通过现代通信技术和计算机技术为用户提供服务的一种沟通渠道。随着企业呼叫中心对多种通信方式融合的需求越来越强烈,统一通信技术正在不断发展并被广泛应用
在虚拟场景漫游时,观察者走到每一点都需要尽可能快得确定哪些对象是可见的,因此设计合适的可见性计算方法不仅能实现快速绘制,还能节省存储空间和内存空间。二维情况下,就是
SNP(Single Nucleotide Polymorphism)分析在探究生物群体的遗传关系、分析疾病关联性等方面发挥着重要的作用,但与单个SNP相比,单体型数据包含了更加丰富的遗传信息,其在基
安全协议通常描述了公共网络中两个或多个智能进程之间的消息交换行为,从而保证对交互过程中诸如认证、机密保持、密钥一致、隐私和匿名性等安全属性的支持。但是,设计一个安
由于网络技术的不断发展,web服务、电子商务的广泛应用,XML已成为网络应用中数据表示和数据交换的标准。XML表示数据的同时,还携带了数据的语义,可以作为一种中间格式,为所有
基于口令认证的群组密钥协商协议(Password-Authenticated Group Key Exchange Protocol, PAGKE协议)允许群组用户在一个公共网络上使用低熵的容易记忆的口令协商出一个高熵
智能系统是能够理解、学习复杂信息并能做出决策和分析行为的软硬件实体,具备识别对象和事件、存储丰富的可利用知识、推理和预测等基本能力,能够适应复杂环境并能够从环境中获
学位
指纹因其唯一性、可靠性和方便性已经发展成为了主流的生物特征识别手段。指纹识别广泛应用于日常考勤、身份鉴别、数据加密、电子商务、电子政务等系统,为人们的日常生活提