基于Spark的协同过滤推荐算法研究与系统实现

来源 :南昌航空大学 | 被引量 : 0次 | 上传用户:reza777
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,推荐系统广泛应用于众多商业网站,不仅方便了用户对信息的检索,提升了用户的体验,还为企业创造了巨额的利润。在众多推荐算法中,协同过滤是当前最为主流的算法。尽管协同过滤算法在推荐系统中效果较好,但是仍存在着数据稀疏、算法可扩展性差以及冷启动等问题。因此,本文将研究推荐系统中的协同过滤算法,并针对该算法存在的问题提出一些解决方案。具体工作如下:(1)提出一种基于偏好模型和类别属性的协同过滤算法PGItem-CF。针对基于物品协同过滤算法只考虑评分数据,并且没有充分挖掘评分矩阵的潜在信息,导致物品相似度计算不准确的问题,该算法首先考虑到不同用户评分尺度的差异性,引入偏好模型处理原始用户评分矩阵,得到用户对评分的偏好值,并替代原始用户评分,得到修正后的用户评分矩阵,采用修正的余弦相似度计算得到评分相似度;然后再结合类别属性,将评分相似度与类别属性相似度进行加权,得到最终电影相似度;最后计算出用户对物品的偏好得分,根据偏好得分排序完成Top-N推荐。实验结果表明,PGItem-CF算法推荐的准确率和召回率优于其他几种对比算法。(2)提出一种基于ALS和DNCF的加权混合推荐算法ALS-DNCF。针对基于ALS矩阵分解协同过滤算法存在数据稀疏和冷启动问题,该算法是将ALS矩阵分解协同过滤模型和DNCF模型的评分预测值进行加权融合,得到最终预测评分。在不同稀疏度的数据集下进行实验,并与经典的推荐算法相比,具有更高的评分预测精度。另外,该混合推荐算法弥补了单一推荐算法的不足,由于DNCF算法利用的是用户和物品属性等显式数据,所以很好地缓解了冷启动问题,故ALS-DNCF混合推荐算法在解决数据稀疏问题时,也很好地缓解了冷启动问题。(3)基于Spark的电影推荐系统实现。针对算法可扩展性问题,本文将PGItem-CF和ALS-DNCF算法搭建在大数据分布式平台下,以Spark作为计算引擎,从系统需求,架构,流程和数据库方面设计并实现基于Spark的电影推荐系统。该系统实现了用户注册登陆,用户给电影评分,电影推荐,电影详细信息展示等功能,并提供了友好的交互界面,来提升用户的体验。
其他文献
21世纪是信息技术快速发展的时代,人工智能技术已然成为了当今最前沿的信息技术之一。人脸识别技术作为人工智能的一个技术分支,越来越广泛地融入到高校的智慧校园的建设当中了,使得校园在安全建设和校园管理等方面更加智能化,人性化和高效化。本文介绍了传统门禁系统的不足之处和采用人脸识别技术的门禁系统的优点,阐述了本系统的研究背景、设计目标和整体结构,并介绍了开发该系统所采用的一些技术的基础知识和理论知识,比
学位
学位
学位
白酒糟是粮谷物和糠壳等混合物经过发酵、蒸馏制得白酒后的副产物,并富含纤维素、蛋白质等有机物。目前白酒糟主要用于生产动物饲料,然而中国每年能产生几千万吨乃至上亿万吨的白酒糟,这给白酒糟的资源化利用带来了巨大挑战。缺乏高效又廉价的处理方法制约了白酒糟的综合利用,也导致了白酒糟被随意丢弃,进一步造成了资源浪费和环境污染。开发白酒糟处理方式,提高经济和环境效益是白酒行业的一个重要课题。由于白酒糟中的纤维素
学位
阿尔茨海默症(Alzheimer’s Disease,AD)是神经退行性疾病中最为常见的一种,在发病率、患病率和致残率上具有较高的比例,给人类健康生活带来了严重的威胁。AD的主要临床表现为认知功能损伤,生活自理能力丧失,且伴有不同程度的神经精神症状及行为障碍。AD致病机制尚不清楚,目前主要有Aβ学说、Tau蛋白代谢异常学说等几种假说。AD治疗方法主要包括药物与非药物疗法。当前的药物疗法可以缓解AD
近年来,自然语言处理领域发展迅速,深度神经网络得到了广泛的应用。同时,在互联网、人工智能等技术蓬勃发展的大背景下,各大手机音乐软件为了实现功能多样性和丰富用户的体验,歌曲的智能搜索和推荐功能逐渐兴起并普及,对于歌词的情感分析是实现这些功能的关键技术。在一首歌曲中,旋律与歌词相辅相成,它们共同传达着歌曲所表现的情感与内涵。其中,歌词不仅包含着语义信息,还可以作为音频信号的旋律、结构和节奏特性的载体,
在半导体材料,天体物理,理论物理等领域,许多问题都可以归结为非线性退化方程问题。对具有应用背景的退化的非线性偏微分方程是当今研究的焦点和热点。本文主要研究了一类非线性退化椭圆和抛物方程解的存在性与正则性,全文安排如下:第一章主要介绍关于这类非线性退化方程的背景和研究现状,简要介绍本文的主要工作。第二章简要给出本文所涉及的一些基本空间和重要不等式。第三章主要研究下列具有低阶项的非线性退化椭圆方程:此
医疗信息物理融合系统(Medical Cyber-Physical Systems,MCPS)是以保障生命安全为重要前提的网络化、智能化的医疗系统。MCPS中的医疗数据由采集得到的患者的身体参数数据和患者的医疗就诊记录数据组成,是一个典型的大数据系统,传统的MCPS数据库采用集中式的数据存储结构,将全部数据存储于一个中心数据库中,一旦中心数据库遭到入侵,所有数据将面临严重的威胁,而区块链(Bloc