基于HDFS的百度多酷移动游戏数据平台的设计与实现

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:dusl520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多酷游戏是百度游戏事业部独立出来的公司,由于先前的业务已经不满足于日益增长的需求,公司领导决定重新梳理公司的业务,并且重建更清晰简洁的数据调度平台与数据展示平台。这次任务主要实现先前百度游戏事业部各种渠道游戏的基础数据的ETL 以及数据展示功能。先前百度游戏事业部的业务不断扩张,现有的集群以及技术不足以处理越来越多的T级数据,尤其独立公司以后,业务更要与之前相比独立、解耦。随着公司各种渠道的游戏不断增加、业务不断改进、与外部的合作不断增加、数据量越来越大、数据的维度不断扩展,对于数据的获取和处理速度,以及对于数据的利用包括分析和预测等的需求,尤其是对于数据存储的需求不断增加。因此,我们决定用新的数据处理技术来创建新的数据平台。项目希望此平台能够满足各渠道游戏的运营人员的各种数据分析需求。在数据处理和存储、展示部分,项目采用主流的Hadoop和Spark来做数据的处理和存储,最终的报表采用轻便的MySQL数据库来存储,采用PHP语言和CI框架来快速实现前期的数据展示功能,在这一部分,本文通过比较有代表性的数据表:今日概况和今日实时概况来阐述。在数据的实时查询和HDFS以及Hive的可视化操作部分,我们考虑到以后的需求和技术的提升会改动前端与后台,所以在设计这一功能时,需要将前端,即查询平台Web端,和后台,即查询平台的访问后台,与实时查询提供者SparkSQL的耦合性达到最低,因此项目采用Thrift来实现这一需求,在Thrift Server中定义查询平台以及可视化操作的所有服务,再由平台后端来调用这些服务,在平台的搭建上,项目采用Tomcat容器。同时由于集群的计算资源有限,我们需要将ETL流程进行一个优化步骤,使得ETL的整体计算量平均分布到凌晨一点到上午九点的所有时间段,避免集群拥堵的情况,节省计算资源,在这一部分项目采用了调度问题常用的算法:遗传算法,并且在需要实现每天定时启动算法检查ETL流程是否更新,再决定是否重新计算新的流程。目前系统已上线并且正常运行,为每日的运营人员分析、公司领导决策提供了所有游戏的概况以及更细维度的分析,得到了同事的广泛好评。实时查询功能极大提高数据开发效率,ETL优化显著提高集群的利用率。
其他文献
实现国家治理体系与治理能力现代化,制度建设是根本,而作为制度实践者的公职人员,其素质和能力也必须转型提升。他们必须具备多元化的复合素质,才能有效面对治理过程中的价值
我国有广大旱地农业区。干旱对农业有很大的制约,造成产量低而不稳,农村经济落后。通过调查研究,分析了我国主要抗旱耕作技术的优缺点,介绍了国外典型的旱地保护性耕作的经验
目的:观察川芎嗪(TMP)对人肾小管上皮细胞Smad转录共抑制因子SnoN蛋白表达水平的影响。方法:体外培养人肾小管上皮细胞(HK-2),应用MTT法检测不同浓度TMP以及转化生长因子-β1
[目的]探讨微信宣教对孕妇孕期护理相关知识掌握程度、剖宫产发生率和授课满意度的影响。[方法]将在医院建卡并分娩的980例孕妇采用随机数字表法将其分为对照组和观察组,每组
目的观察氯胺酮对谷氨酸诱导的大鼠大脑皮层星形胶质细胞自噬的影响。方法取新生大鼠大脑皮层,原代混合培养、分离、纯化获得星形胶质细胞。实验分3个组:对照组(C组,加入D-Ha
摘要:简要介绍了老旧建筑的历史成因及改造措施,谈了一些具体的方法和步骤:组织措施、技术措施及具体内容。可供同行实施老旧居住楼房改造时参考。
综述了国内外高速轨道焊接技术与装备的发展;重点介绍了现代交通轨道工程建设中应用的钢轨辙叉材料、焊接新技术、新工艺与先进装备情况.
目的探讨头孢呋辛联合炎琥宁对小儿支气管肺炎的临床治疗效果和症状改善作用,并探讨和分析其安全性。方法随机选择该院2013年1月—201 4年10月收治的小儿支气管肺炎124例,根
目的:总结应用外科-正畸联合矫治下颌发育不全畸形的效果。方法:2004~2008年收治的25例下颌后缩和小颌畸形。按照术前正畸→手术→术后正畸的序列,分别对20例下颌后缩进行术前术
本文系统地研究了中间夹带剂分离过程中的多重稳态现象。基于∞/∞分析和Aspen Plus中的灵敏度分析工具,很容易找出两个稳定解分支。至于不稳定解分支,即便为过程提供较好的初