基于大数据的日志采集分析系统的研究与实现

来源 :华北电力大学 | 被引量 : 0次 | 上传用户:op0034
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的飞速发展,带来了日益增多的互联网用户。互联网服务提供商为了提高企业的服务质量,需要记录用户的访问信息、网络的运行状况等。而庞大的用户量,使得记录信息的过程会产生海量的日志。针对海量网络日志的分析系统为互联网企业提供了有效的日志收集方式和日志处理分析的能力。本文提出了一种在大数据环境对日志进行收集分析的系统,系统使用Flume和Kafka进行日志的收集和分发,日志是分布在不同机器、不同操作系统上的、具有多样性的海量日志,然后通过Storm和HBase进行日志处理和日志存储,并采用k-means聚类算法对收集的日志进行聚类分析。系统分析的主体内容是从日志中提取出的用户行为,网络服务提供商通过系统分析的结果来优化自身的服务。文章首先介绍了日志收集系统的国内外研究现状和研究成果,分析了日志的特征,结合海量日志的特点对日志收集分析系统做出研究设计和实现。其次在日志分析部分对聚类算法进行了研究和改进。在日志采集部分,本文结合海量日志的特征,基于分布式架构,采用了多节点Flume进行日志收集。为了提高收集日志的可靠性以及防止日志的丢失,该系统使用Flume作为日志消息的生产者,Kafka作为Flume的消费者,这样保证了系统的吞吐量和可靠性,能够对海量日志进行有效的收集和处理。Kafka作为日志数据的缓冲,下游是Storm对日志进行实时处理,HBase对处理后的日志数据进行存储。在日志分析部分中,首先介绍了聚类算法的特征和思想,总结了现有的k-means聚类算法的优化方案和思路,并且根据本文的实际应用场景,提出了一种结合自适应选取k值和具有特征权重的k-means算法的优化方法,在本文的背景下比现有的传统k-means算法具有高的聚类准确率。最后从两方面介绍了系统的架构,第一方面是大数据日志收集组件的架构,分析了大数据日志的特点和大数据用户行为分析的特点,据此介绍了大数据日志收集组件的整体架构设计和配置详情,第二方面是为用户提供前端可视化界面的系统部分,从系统开发环境,功能模块,系统流程,系统测试等方面设计开发了基于大数据的日志采集分析系统,实现了用户可简易便捷配置日志收集服务的功能,并形象的进行了聚类效果的可视化展示和详细数据的下载。
其他文献
社区治理是实现政府善治与社会和谐的重要途径之一,是社区的未来发展方向。社区治理强调治理主体的多元化发展,社区居民更多地参与到社区治理之中是其本质特征。随着经济的全
阐述癌症放化疗患者口腔黏膜炎的流行病学特征、预防和治疗策略,进一步评价现有的癌症放化疗患者口腔黏膜炎预防与治疗策略的效果,为护理同仁提供参考。
在本研究工作中,以氯化亚铁和硒粉为原料,以油胺和碳十八烯为溶剂,采用热注入的方法合成了二硒化铁纳米结构.透射电子显微镜观察发现样品为纳米棒和纳米片构成的球状结构.X射
以赤泥为主要原料,采用硫酸浸取的方法制备了一种无机高分子絮凝剂——聚合硫酸铝铁(PAFS)。对制备PAFS的酸浸条件进行研究,并评价其絮凝性能。实验结果表明:1)最佳酸浸条件为硫
乙醇胺(MEA)吸收CO2技术应用较广,但解吸能耗较大。为了降低解吸过程的能耗,从解吸节能技术出发,提出双效解吸和侧线采出这两种节能方法,并用ASPEN PLUS软件进行模拟,对3种流程进行
<正>群众路线以正确的马克思主义群众观为前提。马克思主义群众观的正确性不是先验地设定,而是在实践的检验中被证明,在同各种错误群众观的斗争中发展并显示其真理性。但是,
目的了解类风湿关节炎患者关节功能锻炼的执行情况,为开展功能锻炼健康教育提供依据。方法选取门诊随诊或住院治疗的类风湿关节炎患者83例,采用自行设计的调查表进行问卷调查
对越橘汁加工技术及色泽稳定性进行了研究。结果表明,果胶酶可以明显提高越橘果的出汁率,最佳处理条件为果胶酶用量0.4%,温度45℃,时间2h,且可保持越橘果中原有有效成分。试
高速公路收费政策取之于民,节假日高速公路免费政策也要用之于民,高速公路收费政策有其存在的原因和必然价值,循序渐进地放开免费政策才是长远之计。节假日高速免费政策是完
近年来,我国的高职教育得到了长足的发展,然而其科研活动却大多处于起步阶段。如何有效地激发和调动高职院校科研人员积极性、主动性和创造性,最大限度地发挥科研人员的潜力,使他