论文部分内容阅读
随着网络媒体技术的不断发展,视频网站数据量呈爆炸式增长。为了发掘视频网站的数据价值与规律,视频的用户行为数据被大量分析。随着数据量的快速增长,数据分析的计算能力正在面临极大的挑战,而且视频网站数据来源多变且结构复杂,这就对数据分析技术提出了更高的要求。面对上述问题,传统解决方案是随着数据量增大不断增加硬件资源提升计算能力,但是性能提升在不远的将来一定会到达瓶颈而且价格昂贵,这已经不是一个可行的解决办法。本文提出一种基于云平台分析技术的解决方案,首先利用Ambari快速构建Hadoop云平台,并进行便捷的维护,利用廉价机器构建低成本、高效率的计算平台。然后,针对视频网站数据的特点,去设计实现一套视频网站数据采集程序及数据库的表结构,根据数据的多样性设计不同的分析策略,提出一种保证数据质量提高数据可用性的数据清洗逻辑。本平台利用MapReduce对视频网站数据进行多维度的分析处理,并将分析结果以图表的方式展示在前端网页上。本文已经完成了云平台的搭建,以及视频网站数据分析程序以及前端图表显示的设计与开发。此外,根据数据采集系统的长时间运行参数验证采集系统的健壮性,通过使用真实数据对MapReduce分析程序进行计算测试,验证了分析程序的可行性,通过前端网页图表截图验证前端图表的运行状况。