层次聚类算法基于Spark的实现及在推荐系统中的应用

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:nobodypan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘伴随着大数据时代的到来显得越来越重要,而聚类算法又是数据挖掘中极为重要的一个研究方向。同时,为了帮助用户在海量数据面前定位自己需要的信息,推荐系统因运而生,它可以针对每个不同的用户定制独特的个性化推荐服务,改善用户体验,提高用户使用粘度。而聚类算法和推荐系统相结合可使得推荐系统的效率有进一步的提升。本文重点对层次聚类算法及其在推荐系统中的应用进行研究。首先,为提高聚类结果的准确性,针对经典层次聚类算法CURE容易受离群值的影响以及离群值只能在聚类结束才能判断的问题,引入Z-Score来改进其离群值判断方法,产生改进的CURE算法,命名为I-CURE,该算法在迭代聚类计算过程中将点与点之间的距离存储到集合中,再计算集合内距离的平均值、方差、标准差,对超过限定条件的离群值进行筛选剔除,从而在聚类前中期就能更高效的筛选出离群值,提高算法的健壮性。其次,为了优化I-CURE算法的时效性,针对聚类算法需要反复迭代消耗大量资源的特点,利用Spark的RDD编程模型的可伸缩性和Map Reduce机制,对CURE算法计算过程做并行化,提升算法对数据的处理速度,使算法能够适应数据规模的扩展,提高了聚类的性能。最后,利用公开数据集对I-CURE算法及其并行化后的性能进行测试,并开发一个动漫推荐原型系统,将I-CURE算法应用到其中,验证本文研究成果的可用性。实验结果与应用结果均表明:本文所设计的I-CURE算法对比原本的CURE算法在聚类结果的准确性上有一定的提升,同时基于Spark平台的并行化对聚类算法的时效性有很大的提升。
其他文献
<正>《慢性子裁缝和急性子顾客》是统编教材三年级下册第八单元的开篇第一课。本组单元是一组非常有趣的故事单元。语文要素在篇章页就明确提出,一是让学生了解故事的主要内
应收账款是企业经营中的债权,对企业的运营活动影响极大,是企业必须高度重视的财务问题。商贸企业要发展,就必须扩大销售,而赊销是扩大销售的重要方式之一,但赊销行为在获得
太赫兹波(THz Wave)是指频率范围为0.1THz~10THz的电磁波。一方面,太赫兹波可以实现更高的系统分辨率、更大的信息容量以及更小的系统体积,在太赫兹雷达、太赫兹通信等领域具
气固两相流中固相质量流量测量是目前国内外的研究热点之一。气固两相流因其流动形态的复杂性与多样性,使得在测量精度较难满足生活以及工业中的需求,从而严重制约了气固两相
自2011年《义务教育课程标准》修订版颁布以来,语文阅读教学工作的开展便开始出现了质的变化。群文阅读作为一种新的阅读方法,其以多文本组合阅读的方式在提高学生阅读效率以
汉语言文学专业是对我国古老文化传承的重要学科,我国的文化博大精深,通过汉语言文学专业的学习,不仅能够扩大知识面,还能够提高自身的文学素养以及审美能力。汉语言文学专业
通假字是中学文言文教学体系中的重点,其中它包括假借字、通假字、古今字以及异体字。在中学教学体系当中,教师需要明白通假字与其他几类文字的区别不是严格意义上的。
随着信息技术的发展,移动互联网在媒体行业日渐渗透,新旧媒体的共存与融合已经成为传媒行业发展的基本趋势。在媒体融合的大背景下,给深度报道带来了机遇的同时也带来了一定
目的探讨膝关节镜下后交叉韧带重建术后下肢深静脉血栓(DVT)发生率及其危险因素。方法纳入自2012-01—2017-12行关节镜下后交叉韧带重建或后交叉韧带联合前交叉韧带、内侧副
区域品牌是一个地区产业竞争力的重要体现,具有区域品牌优势的产业往往是该地区的优势产业和主导产业,是该地区的主要价值源泉。因此,优化区域品牌的发展和建设对于一个地区