基于遗忘理论和加权二部图的推荐系统研究

来源 :贵州大学 | 被引量 : 4次 | 上传用户:kenkenson
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,网络技术和电子商务快速发展,智能硬件越来越廉价,人们的身边中充斥着各种智能设备和网络应用,互联网已经融入了人们的日常生活当中,大量信息被上传到了互联网上。目前人们已经走入了信息超载的时代,互联网中的信息处于大爆炸的状态并且规模还在不断的膨胀[4],在这个时代,人们每天面对大量的信息,而在这些信息中充斥着各种对人们而言价值极低的广告、推广等信息,作为信息消费者的用户,很难从海量的信息中找到自己可能喜欢的信息,同时作为信息提供者的企业、团体,很难将自己生产的信息呈现在可能喜欢这些信息的用户面前[10]。为了使信息消费者能够便利地,准确地获取想要的信息,使信息提供者能准确地、适时地呈现自己生产的信息,解决信息超载问题,推荐系统应运而生。推荐系统通过主动的获取用户的行为数据,如用户的历史浏览记录、打分情况、购物车、收藏夹、搜索关键字等行为信息,一方面预测用户的喜好,给用户推荐他们可能喜欢的信息,另一方面让信息能够展现在可能喜欢它们的用户面前[10]。目前主要的推荐算法有四种:基于内容的推荐算法(Content-based Recommendations,CB)、协同过滤推荐算法(Collaborative Filtering Recommendations,CF)、基于图结构的推荐算法(graph-based Recommendations,GB)和混合推荐算法(Hybrid recommendations,HR),除了上述主流的推荐算法外还有很多种其他的推荐算法,例如基于关联规则的推荐算法、基于知识的推荐算法等。但是,目前的推荐算法在推荐精度、可扩展性、冷启动、数据稀疏性以及用户“兴趣漂移”问题等方面还存在不足。本文从实际出发,重点研究的内容是降低用户“兴趣漂移”问题对于推荐系统的推荐精度的影响和解决新用户、新物品的冷启动问题并将改进的推荐算法中最耗时的计算过程移植到集群中以提高推荐系统的效率。针对用户“兴趣漂移”的问题,本文改进了基于加权二部图(Weighted Network-Based Inference,WNBI)的推荐算法,提出了基于遗忘机制与加权二部图(Forgetting mechanism and Weighted Network-Based Inference,FWNBI)的推荐算法,该推荐算法通过引入遗忘机制并利用遗忘因子作为二部图的权值,从而降低用户“兴趣漂移”问题对于推荐精度的影响,在Movielens数据集上的实验对比分析表明FWNBI推荐算法能够有效的提高推荐的精度和推荐的质量,推荐精度的提升从侧面反映出改进的推荐算法降低了用户“兴趣漂移”问题对推荐精度的影响;针对新用户、新物品冷启动问题,本文在FWNBI推荐结果的基础上综合考虑了CB推荐算法的推荐结果,形成了基于遗忘机制与加权二部图的混合推荐算法(Hybrid Forgetting mechanism and Weighted Network-Based Inference,HFWNBI);针对推荐系统的效率问题,本文将推荐算法中时间复杂度较高的计算过程移植到Spark集群中,通过与单机条件下算法执行时间的对比表明算法中时间复杂度较高的计算过程在集群上的执行效率明显优于在单机条件下的执行效率。
其他文献
随着网格技术的不断发展,网格中的信息资源也随之多样化,其类型由传统的结构化资源延伸到半结构化和非结构化资源。用户难以统一和透明地获取这些异构资源中的有用数据,因此
无线传感器网络[1-4](Wireless Sensor Network:WSN)由一组微小型功能齐全的MEMS装置构成,这些微型装置包括传感器、无线发射器和接收器、电源,它们分布在一个地理区域中对该区
Web应用已经在各行各业扮演了越来越重要的角色,受到了来自大量匿名用户的访问,这其中也包括恶意用户。这种广泛的应用导致 web应用程序容易受到各种攻击,如 SQL注入(C组)和跨站点
数据是广泛分布于组织,公司,政府部门等单位的实际信息,并且知识是来源于信息的抽象概念。但数据被局限在应用程序,数据库,企业内部网,外联网,(可扩展标示语言)XML,甚至在平面文件或E
无线传感网络WSNs(wireless sensor networks)是当前国际上倍受关注的、由多学科高度交叉的前沿研究领域。围绕实现网络低功耗运行,针对适合网络特点的网络协议研究是极为重
随着多媒体移动通信等新业务的发展,频谱资源日益紧张。人们持续增长的需求与有限频谱资源之间的矛盾成为研究高频谱利用率技术的动力和挑战。众多新技术中,基于多天线的多输
文本蕴涵是文本理解与语义推理的基础,欲以解决自然语言语义表达的多样性问题,近年来在计算机语言领域受到了极大关注。文本矛盾关系是蕴涵关系的一种否定,是指两个文本不能同时
P2P对等网络是一种与传统C/S模式不同的新型网络。P2P网络从结构上一般分为非结构化P2P和结构化P2P。非结构化P2P资源的查找和定位通过扩散来实现,搜索数据几乎是随机搜索,容易
运动目标检测根据对视频信息采集时摄像机运动与否可分为静态场景中的检测和动态场景中的检测,它是机器视觉的重要组成内容和关键技术之一。随着机器视觉的发展和应用,运动目标
数据挖掘技术是数据库和人工智能领域研究的热点课题,被用来发现大量数据中隐含的有用的知识;而用于描述多个数据项之间的相关性的关联规则挖掘则是数据挖掘应用中的一个重要