基于Spark的高考推荐系统设计与实现

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:tgxmsc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了解决用户无法获取有价值信息和信息无法被需要的用户所利用的困境,人们提出推荐系统的概念。随着大数据时代的到来,推荐系统也开始面临难以处理海量数据的困境,为了走出困境,与大数据处理技术相结合是必然的趋势。Spark作为大数据处理技术中的佼佼者,提出了RDD的数据模型与基于内存的计算模式,现已被广泛应用于电子商务、视频、社交等领域。但在教育领域内,无论是推荐系统还是大数据处理技术,都涉及较少。高考作为教育领域中的大事件,其志愿填报更是考生关注的焦点。历年的考生志愿录取信息作为考生志愿填报的重要参考数据,因其数据庞大且复杂的特点造成其利用率极低。本文将推荐系统与大数据处理框架Spark相结合,应用于推荐系统与Spark较少涉及的教育领域,帮助考生解决高考志愿填报环节的志愿选择问题。本文完成的工作有以下几点:(1)利用HTML+CSS级联样式表+JSP的前端开发技术,设计开发了高考志愿推荐的Web前端界面。其中包括用户注册界面、用户登录界面、志愿推荐结果展示界面以及相关高考信息(政策、新闻、高校信息与专业信息)的浏览界面。在保证本系统实用性和易用性的同时为用户提供良好的交互体验。(2)以Web前端作为用户日志的生产方,设计性能良好的日志收集模块。首先,采用Flume日志收集工具收集日志信息;其次,通过Sink组件将收集到的信息传送给Kafka消息中间件,利用其功能对日志信息进行统一下发;最后,使用Spark Streaming流式处理框架对Kafka中收集到的日志信息进行清理与提取,并将其存储于HDFS文件系统中。(3)设计高考志愿场景下的志愿推荐引擎。首先,通过阅读大量高考志愿填报文献,选取合适的用户属性,计算相似性,建立相似矩阵,寻找相似用户;其次,分析几种最常见的推荐算法,结合高考志愿填报的真实场景选择基于用户的协同过滤算法作为本系统的推荐算法;最后通过Spark计算框架的并行化计算方式生成最终的推荐列表。(4)搭建Spark分布式集群开发环境,实现系统整体的开发和相关测试。首先,阅读相关文档,在实验室实际环境中搭建具有三个节点的Spark分布式集群开发环境;其次,使用Scala语言编写相关代码,实现系统开发;最后,系统开发完成后对日志收集工具以及Spark相关组件进行性能,确保系统正确高效运行,同时对推荐结果准确度以及整体系统满意度进行测试,保证用户的良好体验。
其他文献
本文论述了泰慕赛尔含义的实质,酒店/度假村加盟泰慕赛尔的标准,加盟泰慕赛尔给客户和酒店/度假村带来的种种好处;在我国目前酒店/度假村生意难做的情况下,引进泰慕赛尔更有
在弹道导弹与航母战斗群的攻防对抗中,弹道导弹需要采用有效的寻的方法以便在对抗中占优势。通过分析航母的运动特性,建立了预测其运动态势的数学模型;在此基础上,采用预测落
自从传统威胁消失以来,政治格局的戏剧性变化导致对北约军队新角色的深入分析,这将对全世界的所有其他军队产生巨大影响。这里简要概述这一分析的初步结果,作为讨论指挥控制
目的:探讨针刺加康复训练对减轻脑卒中患者偏瘫侧肢体肌肉痉挛的治疗效果。方法:100例脑卒中患者随机分为针刺加康复训练组(治疗组)50例和单纯康复训练组(对照组)50例。两组
目的探讨命名性失语的语言治疗方法和治疗效果。方法采用西方失语成套测查(WAB)及标记测查(tokentest)对9例脑卒中后命名性失语患者进行检查,并在常规语言治疗的基础上采用针
管理层薪酬契约如何影响企业的盈余管理活动是公司财务领域研究的重要内容。本文同时将管理层的显性薪酬-货币薪酬和股权激励与隐性薪酬-在职消费纳入分析框架,从薪酬形式和薪酬结构双重视角系统研究了管理层薪酬契约对企业盈余管理的影响。首先,基于委托代理理论、激励理论、最优契约理论与管理层权力理论对管理层薪酬及其结构如何影响盈余管理进行了理论分析并提出初步的研究假设。在此基础上,以我国沪深两市A股上市公司20
明代著名戏剧家汤显祖,曾与内阁大学士张位交游。尤其是他晚年弃官后,在南昌与张位过从甚密。综观两人交游的情况,可以看出汤显祖思想的复杂性:既有儒家传统的经邦济世和爱国
针对正畸科采取印模和灌制模型主要由门诊护士来完成的现状,分析了采取印模和灌制模型操作中存在的问题,强调了对此操作进行质量监控的必要性,并结合临床工作经验,总结了实时
阐述了高校图书馆的重要作用,分析了信息时代高校图书馆的特征,从管理观念、借阅模式、管理模式、管理体系、馆员素质等方面,探讨了信息时代高校图书馆管理模式的创新问题,讨