在线音乐服务的分布式数据处理平台的设计与实现

来源 :中山大学 | 被引量 : 0次 | 上传用户：makeitreal

【摘要】

：

随着互联网的高速发展和移动客户端的普及，各类数据爆炸性地增长。如何从海量的数据中挖掘出有用的信息，成为当前的研究热点。在线音乐服务生成的用户播放记录数据就是海量数据

【作者】

：

邓运亨

【出处】

：

中山大学

【发表日期】

：

2014年01期

【关键词】

：

大数据在线音乐服务数据处理 Hadoop 流程优化

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的高速发展和移动客户端的普及，各类数据爆炸性地增长。如何从海量的数据中挖掘出有用的信息，成为当前的研究热点。在线音乐服务生成的用户播放记录数据就是海量数据的一种。伴随着在线音乐的发展，人们热衷于使用各种音乐播放工具听歌，用户每条播放的记录都会被在线音乐服务提供商完整地保存，通过挖掘这些用户的播放记录数据可以发现各个用户群体的听歌喜好。然而，目前的数据处理平台并不能完全满足这样的需求，因此，如何对海量的用户播放记录进行挖掘是一个很大的挑战和难点。为了在海量的播放记录中挖掘出有用的信息，论文提出并实现了一个在线音乐服务的分布式数据处理平台（KGMiner），主要用于酷狗音乐数据的数据处理，主要包括预处理、聚类分析、热度统计三个模块。同时，论文定义并抽象了挖掘中预处理和聚类分析的标准化流程，方便数据处理人员进行针对不同需求的扩展。KGMiner使用目前最成熟的大数据处理框架Hadoop，完成对酷狗音乐用户播放记录数据的挖掘工作。然而，在实际运用过程中发现，基于Hadoop的分布式k-means算法在迭代运算下存在很多不足，例如：初始点随机选择，冗长的作业启动时间，Reduce时间过长等。因此，本论文改进工作主要集中在分布式k-means算法的迭代运算效率优化。改进工作主要分为以下三部分：首先，针对k-means随机选取初始点作了改进，参考k-means++的思想，选取相距较远的点作为初始点，用于减少迭代次数；其次，针对每个作业串行执行的情况，提出了一种作业异步启动的方法，减少了作业的启动时间对于整个处理时间的消耗；最后，针对Reduce过程中，Reduce的计算时间非常短，而大部分时间用在Reduce端的框架启动和消耗的情况，提出了新的Reduce执行方式（MyReduce），MyReduce一直保持着接收数据和计算全局中心点的状态，可以有效避免在计算全局中心点过程中MapReduce框架带来的时间消耗。最后，论文在真实的酷狗音乐数据上进行实验，实验结果表明，对比优化前的k-means分布式聚类分析，本文的改进方法能让分布式聚类分析的总时间大大缩减。

其他文献

改进和完善学部的咨询工作：四位学部委员访谈录

1983年11月,中共中央书记处会议决定改变中国科学院学部委员大会及主席团的性质和职能,确定学部作为国家在科学技术方面的最高咨询机构,努力研究我国社会主义现代化问题,积极

期刊

中国科学院学部咨询工作

一起喷煤车间煤粉仓爆燃的原因分析及对策

针对一起煤粉仓爆燃事故，从煤粉爆炸机理及喷煤安全设计和此次事故发生时人、机、料、法、环、测等方面进行了分析，提出了防范事故发生的对策措施。

期刊

煤粉仓挥发份含氧量充氮爆破片漏风PCI coal storehouse volatile oxygen content nitrogen fille

西安市水资源可持续开发利用的SPA综合评价

陕西省西安市水资源短缺，随着经济与社会的发展，水资源的可持续利用必将受到威胁。为了使水资源的可持续利用能有效支撑经济、社会和环境的可持续发展，本文采用多目标集对分析法

期刊

水资源可持续开发利用层次分析法集对分析

落实科学发展观推进节水农业建设——辽宁省建平县大棚黄瓜微润灌技术推广成效分析

2010年，辽宁省建平县在太平庄乡要道吐村推广实施大棚微润灌技术推广项目，示范区设微润灌溉示范区和膜下微喷对照区2个处理区，面积100亩。经过一年推广测试，微润灌溉耗水量（121．90m

期刊

敞润灌推广成效

社会转型期学校体育的生态性研究

文章探讨了学校体育生态性的内涵和学校体育生态系统的构成，以生态世界观审视学校体育存在的生态性危机，并致力于加强学校体育生态性建构。

期刊

社会转型期学校体育生态系统生态性建构social transition stage scholastic physical education ecol

爱水护水节水人人有责

资源是人类生命之源。人类离不开水资源，全球正处于水资源矛盾供求紧张时期，它已向人类敲响爱水护水节水警钟!党和国家十分重视水资源可持续利用，先后制定了以《中华人民共和国

期刊

水资源21世纪议程节约用水

新昌县城南乡集中整治河道环境

日前，浙江省新昌县城南乡正在开展“清水工程”河道环境整治集中行动。此次整治行动，共投入资金5万多元，组织机关干部、大学生村官、河流涉及村的干部群众共200余人会战潜溪江、

期刊

河道环境集中整治县城新昌机关干部环境整治投入资金生态休闲

吴邦国：在全社会掀起新一轮法制宣传教育高潮

中共中央政治局常委、全国人大常委会委员长吴邦国4月22日下午在十一届全国人大常委会第二十次会议闭幕会上发表重要讲话。他强调，要认真学习领会胡锦涛总书记重要讲话精神，以

期刊

中国特色社会主义法制宣传教育吴邦国全国人大常委会中央政治局法律体系胡锦涛

《中国互联网发展报告》出版

《中国互联网发展报告》首发式与中国互联网发展状况研讨会近日在京举行。全国人大常委会教科文卫委员会副主任委员吴基传,信息产业部副部长奚国华,中国科协副主席、北京理

期刊

教科文卫委员会吴基传网络基础设施《中国互联网发展报告》北京理工大学

沉下去扶起来——干部下派的“南平做法”

为破解"三农"难题,福建省南平市提出"高位嫁接、重心下移、一体运作"的思路,选派2000多名机关干部到农村最基层担任村党支部书记、科技特派员、乡镇长流通助理、乡镇长及村主

期刊

干部下派南平市对策经验教训

在线音乐服务的分布式数据处理平台的设计与实现

与本文相关的学术论文