基于Hadoop和RJaccard系数的混合图书推荐

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:waich19870625
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从Amazon的商品推荐到Netflix的电影推送,图书、音乐、电影等各个领域都离不开个性化推荐系统。中国每年图书新出版种数多达几十万种,每年图书的总信息量远远超过个人需求的信息量,图书领域信息过载问题愈发突出,所以个性化推荐对图书产业越来越重要。相似度计算方法是个性化推荐算法的重要部分之一,直接影响推荐算法的性能。传统的相似度计算方式主要利用用户之间或者物品之间的共同评分项来计算相似度,当数据相对稀疏时,该方法推荐效果不尽人意。同时,单一的推荐算法在实际场景中,效果欠佳。针对上述问题,本论文进行了如下研究工作:首先,在数据相对稀疏的场景下,针对协同过滤推荐算法无法准确的找出用户之间相似性的问题,研究了基于RJaccard系数的协同过滤推荐算法(RJCF)。该算法利用RJaccard系数,通过用户或者物品之间的全局评分项计算相似度,在数据相对稀疏的场景中,能够准确的找出用户之间的相似性。其次,为了弥补RJCF算法挖掘用户隐含信息能力的不足,提出一个新的混合推荐算法,该算法从用户和物品两个角度出发,利用机器学习分别建立线性回归模型,并将RJCF算法和两个线性回归模型进行融合。该混合推荐算法在数据集Book-Crossing上进行实验仿真。结果表明,该混合推荐算法与单一的算法相比,取得了更好的推荐效果。最后,为了数据的存储、建模所需的计算量问题,我们搭建了基于Hadoop的大数据平台,并在该平台上完成了混合推荐模型的仿真实验。搭建过程包括在linux系统的服务器上安装CDH,配置core-site.xml、hdfs-site.xml、mapred-site.xml以及yarn-site.xml等核心配置文件。在搭建平台后,采用集群中的HDFS、MapReduce、Mahout等分布式组件,实现图书推荐系统的数据存储、数据清洗和推荐算法建模。综上所述,本文利用RJaccard相似度计算方式结合线性回归模型,提出一种应用于图书领域的混合推荐算法,并在Hadoop大数据平台中对其进行了实验验证,取得了很好的效果。
其他文献
根据国家体育总局2015全国大学生体质健康测试成绩的调研结果显示我国高校大学生的身体素质继续呈下降趋势,因此有效提高大学生的健康体适能是体育工作者研究工作的一个热点
基于溶液法制备的全无机钙钛矿CsPbBr3QD具有诸多优异的性能:发光光谱可调、发光效率高、高载流子迁移率、荧光量子产率高、合成工艺简单等特征,成为近年来显示行业的研究热
兴趣点(Point-of-Interest,POI)推荐是推荐系统领域的一部分,并深深根植于人们的日常生活中。随着LBSNs技术的不断发展,兴趣点推荐应用也积累了大量的用户,产生了海量的兴趣
高中文言文疑难字词的存在,影响了中学师生对文言文的理解。这既会使谬误广播于民众,又会影响到大家的学习兴趣。本文试图解决江苏凤凰教育出版社2014年6月第5版及之后《普通
乳酸杆菌作为益生菌的主要类群,在应用于发酵食品的同时具有如维持肠道稳态、调节宿主免疫以及疾病的预防和治疗等功能。稳定的黏附及定植是乳酸杆菌进入肠道后发挥效力的基
煤炭资源在我国能源结构中一直占据重要地位,随着我国能源结构的调整以及对洁净环保的要求力度越来越大,煤炭资源的清洁高效利用成为转变煤炭资源使用方式的重要要求,煤直接液化技术为煤炭资源的清洁高效利用提供了有效的方式,在煤炭直接液化的相关研究中,催化剂的合成与制备研究在其中占据着十分重要的地位,也是决定煤炭资源清洁高效利用的重要手段,目前有关煤直接液化催化剂的相关研究多以铁系纳米颗粒的相关制备研究为主,
我国是全球天然橡胶第一大消费国和第一大进口国。天然橡胶作为“战略资源”,其稳定供应关乎国防、交通运输、医药卫生等众多领域的发展。过低的自给率、市场风险及劳动力约束等方面的挑战使我国天然橡胶产业发展处于被动。合成橡胶作为天然橡胶的替代品,已在很多领域得到推广应用,在一定程度上缓解了天然橡胶短缺所带来的不足。自1860年Williams从天然橡胶中分离出异戊二烯开始,许多科研工作者就致力于用异戊二烯人
细胞是生物体结构和生命活动的基本单位。细胞的形态结构与其生长活动状态密切相关,因而细胞的形态学研究一直是生命科学、临床医学等学科关注的重点之一。而大多数细胞都是
随着阵列信号规模的急剧扩大,数字信号系统对大规模数据运算的性能要求不断提升,实现一个高性能的并行计算系统具有重要的现实意义和工程价值。在密集型计算中,传统单核处理
随着互联网、智能设备及无线网络技术的飞速发展,近年来,无线网络中的视频流媒体服务应用已经成为了移动数据流量激增最主要的推动力。同时,视频服务也正在从以指标为中心转