在线音乐服务的分布式数据处理平台的设计与实现

来源 :中山大学 | 被引量 : 0次 | 上传用户:makeitreal
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展和移动客户端的普及,各类数据爆炸性地增长。如何从海量的数据中挖掘出有用的信息,成为当前的研究热点。在线音乐服务生成的用户播放记录数据就是海量数据的一种。伴随着在线音乐的发展,人们热衷于使用各种音乐播放工具听歌,用户每条播放的记录都会被在线音乐服务提供商完整地保存,通过挖掘这些用户的播放记录数据可以发现各个用户群体的听歌喜好。然而,目前的数据处理平台并不能完全满足这样的需求,因此,如何对海量的用户播放记录进行挖掘是一个很大的挑战和难点。为了在海量的播放记录中挖掘出有用的信息,论文提出并实现了一个在线音乐服务的分布式数据处理平台(KGMiner),主要用于酷狗音乐数据的数据处理,主要包括预处理、聚类分析、热度统计三个模块。同时,论文定义并抽象了挖掘中预处理和聚类分析的标准化流程,方便数据处理人员进行针对不同需求的扩展。KGMiner使用目前最成熟的大数据处理框架Hadoop,完成对酷狗音乐用户播放记录数据的挖掘工作。然而,在实际运用过程中发现,基于Hadoop的分布式k-means算法在迭代运算下存在很多不足,例如:初始点随机选择,冗长的作业启动时间,Reduce时间过长等。因此,本论文改进工作主要集中在分布式k-means算法的迭代运算效率优化。改进工作主要分为以下三部分:首先,针对k-means随机选取初始点作了改进,参考k-means++的思想,选取相距较远的点作为初始点,用于减少迭代次数;其次,针对每个作业串行执行的情况,提出了一种作业异步启动的方法,减少了作业的启动时间对于整个处理时间的消耗;最后,针对Reduce过程中,Reduce的计算时间非常短,而大部分时间用在Reduce端的框架启动和消耗的情况,提出了新的Reduce执行方式(MyReduce),MyReduce一直保持着接收数据和计算全局中心点的状态,可以有效避免在计算全局中心点过程中MapReduce框架带来的时间消耗。最后,论文在真实的酷狗音乐数据上进行实验,实验结果表明,对比优化前的k-means分布式聚类分析,本文的改进方法能让分布式聚类分析的总时间大大缩减。
其他文献
1983年11月,中共中央书记处会议决定改变中国科学院学部委员大会及主席团的性质和职能,确定学部作为国家在科学技术方面的最高咨询机构,努力研究我国社会主义现代化问题,积极
针对一起煤粉仓爆燃事故,从煤粉爆炸机理及喷煤安全设计和此次事故发生时人、机、料、法、环、测等方面进行了分析,提出了防范事故发生的对策措施。
陕西省西安市水资源短缺,随着经济与社会的发展,水资源的可持续利用必将受到威胁。为了使水资源的可持续利用能有效支撑经济、社会和环境的可持续发展,本文采用多目标集对分析法
2010年,辽宁省建平县在太平庄乡要道吐村推广实施大棚微润灌技术推广项目,示范区设微润灌溉示范区和膜下微喷对照区2个处理区,面积100亩。经过一年推广测试,微润灌溉耗水量(121.90m
文章探讨了学校体育生态性的内涵和学校体育生态系统的构成,以生态世界观审视学校体育存在的生态性危机,并致力于加强学校体育生态性建构。
资源是人类生命之源。人类离不开水资源,全球正处于水资源矛盾供求紧张时期,它已向人类敲响爱水护水节水警钟!党和国家十分重视水资源可持续利用,先后制定了以《中华人民共和国
日前,浙江省新昌县城南乡正在开展“清水工程”河道环境整治集中行动。此次整治行动,共投入资金5万多元,组织机关干部、大学生村官、河流涉及村的干部群众共200余人会战潜溪江、
中共中央政治局常委、全国人大常委会委员长吴邦国4月22日下午在十一届全国人大常委会第二十次会议闭幕会上发表重要讲话。他强调,要认真学习领会胡锦涛总书记重要讲话精神,以
《中国互联网发展报告》首发式与中国互联网发展状况研讨会近日在京举行。全国人大常委会教科文卫委员会副主任委员吴基传,信息产业部副部长奚国华,中国科协副主席、北京理
为破解"三农"难题,福建省南平市提出"高位嫁接、重心下移、一体运作"的思路,选派2000多名机关干部到农村最基层担任村党支部书记、科技特派员、乡镇长流通助理、乡镇长及村主