面向流量测量的海量数据处理系统的设计与实现

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:cty810
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网规模的不断扩大,服务器托管作为互联网产业重要业务正面临日趋激烈的竞争。为提高市场竞争力,四川IDC数据中心计划向其托管网站提供用户行为分析服务,主要包括网站的点击次数、停留时间、流向地域等。该数据中心托管的网站超过千家,对其所有用户提供该服务,对数据的存储与处理提出极高要求,系统必然面临海量数据问题。本文针对流量测量中的海量数据问题,分析研究了当前用于网络流量测量的数据存储系统,根据FastBit使用的WAH压缩算法的特点提出一种基于列基数聚集存储方法,应用于该海量数据处理系统。主要内容包括:   ⑴系统框架设计。在分析数据中心需求的基础上,给出系统的总体结构和各子系统的设计。系统整体分成数据处理子系统和数据存储子系统。   ⑵数据处理子系统的详细设计与实现。该部分包括三个功能模块:数据清洗模块、数据流聚合模块、访问者地域模块。数据清洗模块完成脏数据的过滤;数据流聚合模块针对一段时间内同一访问者的多条访问记录进行合并操作,有效控制系统总数据规模;访问者地域模块完成访问者IP完到访问者所在地域的转换。   ⑶数据存储子系统的详细设计与实现。该模块包括四个主要模块:数据存储结构设计模块、数据表聚合模块、基数聚集数据存储方法的设计与实现模块和索引优化模块。存储结构设计中设计了详细数据表和汇总数据表两类,分别用于存储用户详细访问状况和概要访问状况;数据表聚合模块通过对查询过程中FastBit所用到的bundle内存结构的使用,完成详细表到聚合表的数据按条件聚合;基数聚集数据存储方法模块中,在对WAH压缩算法进行研究的基础上,提出一种基于基数聚集的数据存储方法,该方法不仅能够有效降低索引存储空间,具有较高的空间效率,而且能够提高数据查询效率;在索引优化模块中采用索引优化理论结合系统实际需要设计适合需要的索引方法。   ⑷实际网络环境下的测试与分析。给出了系统性能分析,并详细分析了基于基数聚集存储后索引占用存储空间和数据查询效率的对比,由测试结果可知本系统达到设计目标。本文设计实现的系统完成了IDC数据中心海量用户行为数据所需的海量数据存储与处理工作,能够提供每个网站的访问者IP、点击、停留时间以及流向等访问信息。
其他文献
作为LTE的演进,LTE-A的峰值速率要求非常激进:LTE的上下行峰值速率分别为80Mbps和300Mbps,然而LTE-A的上下行峰值速率可达到1.5Gbps和3Gbps。为了达到1.5Gbps的上行峰值速率指
目前,无线通信技术已由追求更高、更快的数据传输速率,向追求更省、更优的资源和能源效率转变,节约能源、节约资源已成为当前研究领域的重大前沿课题;协作中继技术广泛应用于蜂
随着无线通信技术的快速发展,传统固定的宽带接入和移动服务已经不能够满足人们对高宽带、高速率的移动性业务的需求。WiMAX(WorldwideInteroperability for Microwave Access
MIMO技术因能显著提升信道容量和改善通信质量,是未来宽带无线通信的关键技术之一。目前,关于点对点单用户MIMO系统信号处理与空时编码理论及方法的研究成果日趋丰富。但是,
H.264/AVC是ITU-T的视频编码专家组(VCEG)与ISO/IEC的动态图像专家组(MPEG)联合开发的最新国际视频编码标准。与以前的视频编码标准(MPEG-2、H.263、MPEG-4等)相比,H.264/AVC
随着计算机技术、网络技术以及视频压缩技术等技术日新月异的发展,人们的安全意识在不断地增强,安防产业得到了快速的发展,人们对视频监控产品的要求也越来越高,网络摄像机逐渐占
随着当今通信信息技术的发展,移动通信终端在人们的生活中显得越来越重要。虽然移动通信终端的发展日新月异,但是在保证移动通信终端的便携性下很难将桌面系统的优势强加于移动
光网络技术的发展为下一代网络带来了巨大的传输容量,由于每条链路都承载了大量业务,单个链路故障都会影响大量的业务请求,使网络性能急剧下降。为了降低故障对网络性能的影响,需
IEEE802.11ac作为下一代无线局域网标准,将带来千兆级别的传输速度。此标准的物理层核心技术为MIMO-OFDM技术,该技术充分利用了时间,频率,空间三种分集技术,使无线系统的可靠性,频
VLC(visible light communication)作为一种新型的无线通信方式,其安全性高、无需频谱认证、无电磁干扰等一系列优点,都使其相比于其他无线通信方式具有更明显的优势。本文是