【摘 要】
:
随着科学技术的进步,越来越多的用户加入到互联网中,信息的产生以指数级增长,推荐系统也迎来了重大的挑战。科技的发展带动了软件行业的繁荣,越来越多的人加入到互联网行业,互联网技术的迭代速度非常快,相关工作人员需要时刻进行学习,随着技术人员的增多以及技术的快速发展,市场上出现越来越多的技术文章平台,海量的文章随之涌入,因此文章推荐的功能实现可以帮助平台改善用户体验,使得用户快速找到感兴趣的内容,更好的留
论文部分内容阅读
随着科学技术的进步,越来越多的用户加入到互联网中,信息的产生以指数级增长,推荐系统也迎来了重大的挑战。科技的发展带动了软件行业的繁荣,越来越多的人加入到互联网行业,互联网技术的迭代速度非常快,相关工作人员需要时刻进行学习,随着技术人员的增多以及技术的快速发展,市场上出现越来越多的技术文章平台,海量的文章随之涌入,因此文章推荐的功能实现可以帮助平台改善用户体验,使得用户快速找到感兴趣的内容,更好的留住用户。目前主流推荐模型有很多,主要分为单一模型和混合模型的推荐。单一模型不能有效地挖掘出文章的深层信息,不能很好地满足用户的需求,混合模型则是将多个单一模型根据实际应用的场景不同,进行混合使用。使用混合推荐可以有效的提高推荐的准确率,但目前在文本混合推荐方面,大多数只是简单的根据文章中的词频来提取关键词,将关键词的权重作为文章特征权重进行计算,而不能准确地提取出文章中具有代表性的关键词的权重,同时混合模型在时间复杂度上比单一模型大,运行速度较慢,在真实使用场景中,使用混合模型进行推荐时,需要解决运行速度慢的问题。针对上述不足,本文采用基于Spark工业级大数据开源框架研究并实现了技术文章混合推荐系统,整个系统可以满足工业数据级的开发使用,在进行文章推荐的同时,改进了文章特征权重的计算,能够达到更好的推荐效果。本文的主要工作如下:1.给出了文章特征权重加权计算的方案。在传统的TF-IDF的基础上,利用Text Rank构建词之间的相邻关系网络,将TF-IDF权重值和Text Rank权重值进行联合加权求权重。通过实验证明经过特征权重的改进在文章推荐的准确率、召回率、F1-Score等评估指标上均有一定提升。2.构建基于Spark工业级的混合推荐模型,混合推荐模型分为了两个阶段:召回和排序。在召回阶段采用了基于ALS模型的协同过滤和基于Word2Vec内容模型的推荐。在排序阶段,并没有采用深度学习模型,而是采用了基于因子分解机(FM)的机器学习排序模型,基于良好的特征工程,即使是机器学习也能够拥有很好地推荐效果。3.设计实现了文章混合推荐系统。实现了用户登录注册、爬虫模块、页面展示以及大数据推荐模块等组成的技术文章推荐系统,其中后端采用了Spring Boot+Spring Data Jpa框架,进行业务功能的实现,使用了mysql进行业务数据的存储。大数据推荐模块实现中,使用了大数据存储技术hive和hbase进行数据存储,通过Spark对hive中的数据进行预处理、分析、建模等过程将最终计算的结果写入到Hbase,并通过Hbase传递到展示页面,完成系统的整体功能实现。同时对该系统主要功能接口进行了测试。为了缓和冷启动问题和数据稀疏性问题,本系统在对用户未登录和用户登录时未进行操作以及用户存在操作的历史数据等方面进行了有效的功能设计,更进一步缓和了冷启动和数据稀疏等问题。
其他文献
随着科技的迅猛发展,社会对创新型、技术型等人才的需求量越来越大,人们更加重视教育对学生科学素养的培养,国际各国不断地对课程标准进行改革,HPS教育便是时代的产物。HPS是科学史、科学哲学、科学社会学的缩写,国际科学教育界认为,将这三个层面融入到教育教学中,有利于帮助学生理解科学的本质,对培养学生的核心素养也有重要作用。本论文将HPS教育理念与高一物理教学内容相融合,重新设计出基于HPS教学模式的教
自21世纪以来,信息技术的迅速发展,促进了现代教学方式和学习方式的深刻变革,其中信息技术和中学课程教学整合是当今教育教学发展的重要趋势之一。初中数学作为一门基础教育的重点课程,其教学面临着知识点繁多、内容抽象、复杂等问题,导致学生难以快速、准确地接受理解。针对初中数学中存在的较为抽象、复杂的问题,利用信息技术手段来改变教师的教学方式和学生的学习方式将对初中数学教学具有重要意义。GeoGebra是一
随着教育信息化的推进,课堂辅助教学资源开发和应用更加丰富,给课堂教学模式带来了更多的选择,也给教师的课堂设计提出了新的挑战。为了适应新高考制度,通用技术学科在2017年制度了全新的课程标准,在2020年结合学生的实际需求和学科的实际教学状况对2017年课程标准又进行了修改和补足,随之而来的是情境和案例极大程度增加的新教材。视频资源在通用技术课堂中的作用越发突显,用具象化的方式展现案例,通过多感官的
随着当前人民生活水平质量的不断提高,很多人往往在饮食上不加以控制,在日常饮食中食入大量脂肪过高的食物,从而导致血液中脂肪含量过高,营养过剩导致体重较重,以至于身体出现肥胖,而这些是引起非酒精性脂肪肝病的重要原因之一。病理医生在进行病理学诊断时,需要根据区域组织中正常肝细胞、脂变肝细胞、气球样变性肝细胞以及免疫细胞的分类以及分布情况,然后结合病理学经验做出最终的诊断结果。非酒精性脂肪肝的细胞图像特征
文字作为一种用符号记录信息的方式和工具,是文化的传承者,是人类知识的载体,它在人文交流、知识传承中扮演着重要角色,因此文本检测领域的研究是计算机研究领域当中的重要组成部分。文本检测技术拥有广阔的应用前景,其中包括场景文本检测、卡片票券的信息提取、机器人视觉中的目标检测、古籍图像中的字符检测等。当前,学术界有较多针对古籍图像的文本检测技术的相关研究,国外的研究主要针对的是古代拉丁文手稿图像,国内的研
工厂化叶菜种植可在很大程度上摆脱自然的束缚,能保持蔬菜供应稳定。因此,近年来国内外工厂化叶菜种植发展迅速,生产过程机械化和智能化程度越来越高。但是,在收割流水线上切割后的叶菜,目前在国内外仍然以人工作业进行卸菜为主,尚未有文献报道收割流水线上的此种设备。如何实现收割流水线上的卸菜过程机械化,是本论文研究的目标。研发一种与收割流水线匹配工作的卸菜装置,实现机械化卸菜,从而完善工厂化叶菜生产全程机械化
桥梁是交通基础设施中的重要组成部分,其维修保养关系着交通畅通甚至人民生命财产的安全。而桥梁混凝土缺陷的检测则是桥梁维修保养中最为关键的一环。从力学角度看,这些缺陷一般不会直接影响其承载能力,但会给桥梁结构埋下安全隐患,任其发展最终将破坏桥梁的使用功能,缩短其寿命。因此,高效智能地检测出桥梁混凝土的缺陷对于桥梁维修保养显得尤为重要。传统的桥梁检修方法所存在的人力成本高、时效性差、主观性强等诸多问题越
在当前的课改形式下,学校需开设综合实践课程,笔者所在学校在初一、初二年级开设了科普类、实践类和心理咨询类共11种综合实践课程。学校开设科普类综合实践课程,笔者负责机器人模块的教学工作,但以往都是以社团和竞赛模式开展工作,现在开设综合实践课程,机器人教学必须从竞赛教学向普及教学转型。目前这一教育领域还没有形成自己的理论体系,没有成熟的教学模式可以借鉴,也没有现成的教材可以用,所以开发适合学校综合实践
信息学奥赛是一种编程类竞赛活动,在中小学阶段开展,是培养计算机人才的一个重要途径,对我国选拔和培养计算机人才有着重要意义。因为信息学奥赛内容抽象且难度大,很少有学生经过自己单独学习后参加比赛的。目前,大部分参加信息学奥赛的中小学生都是通过各中小学校开设的信息奥赛课程培养后再去参赛的。但是,由于各方面的因素,目前初中信息学奥赛课程辅导中存在一些问题,例如课程时间不够、课堂低效、学生接收水平参差不齐、
随着我国高等教育改革的发展,高校的教育模式逐渐发生改变,鼓励学生自主学习。现如今高校校园越来越大、教学区越来越美观、户外空间越来越宽敞,但现在的户外学习空间是否满足学生的学习需求?怎样的户外学习空间适合学生进行户外学习?在这些疑惑下,一方面对重庆市中心城区高校教学区的户外学习空间进行了细致的研究,另一方面了解了学生对于户外学习空间的使用情况及使用感受,对于完善高校教学区户外学习空间设计理论及提升教