论文部分内容阅读
摘 要:伴随互联网的发展,以及分布式计算的有效运用,传统的日志技术的局限性日益凸显。分布式日志系统的优化设计,可以有效的解决传统日志技术的缺陷,从时间上、效率上有效的提高日志文件的处理能力。有效的日志记录,可以有效的维护系统资源的运行情况。本文从分布式文件系统中日志技术优化的趋势、日志分析系统的优化设计两个方面对分布式文件系统中日志技术优化进行一定的探讨,期望可以为改善日志技术提供一定的理论依据。
关键词:分布式文件系统;日志技术;优化
日志,可以有效的反映计算机系统的运行轨迹。日志的分析与管理,是入侵检测、系统管理的基础措施,可以对系统的运行情况进行评估,同时也可以对网络的安全性进行有效分析。因此,日志技术被普遍的运用于安全监测、系统调试与系统监控之中[1]。分布式系统,将分布式计算、并行计算有机结合,可以实现数据的并行计算与分布式存储[2-3]。但是现今的分布式系统中的日志技术,在实际运行中存在一定的问题,需要进行日志技术的优化,进而改善日志数据处理的问题,本文就对分布式文件系统中,日志技术的优化问题进行一定的探讨,期望可以为改善日志技术提供一定的理论借鉴。
1分布式文件系统中日志技术优化的趋势
1.1数据处理方面
伴随云计算时代的到来,分布式计算模型随之出现,日志分析系统运用云计算进行处理。传统的日志分析工具,针对的日志类型较为单一,而以云计算为基础的日志分析系统,其具备较大的扩展性,可以采取多种不同的处理方式,进而满足用户的差异性的要求。实现日志数据的预处理,可以有效的去掉错误与重复的数据,确保日志记录的实用性;完整性;准确性[4]。
1.2数据存储方面
数据存储方面,改变了传统的单一存储模式,改为多节点负载存储。当系统中的单个节点出现问题时,并不会影响其余节点的工作性能,进而有效的提高了系统的稳定性。同时可以在系统正常工作的情况下,有效的恢复失效节点的工作,进而大大提高了系统的使用效率,不会影响用户的正常使用。对于收集的源数据;预处理后的数据;分析处理的结果等,都存储在分布式系统中。在HDFS分布式文件系统中,可以存储收集到的Web日志数据、预处理后的数据,在分布式数据库HBase中,可以存储分析结果[5]。
1.3提高用户请求的效率
数据的处理与分析,都是经由分布式集群进行的,可以有效的提高数据处理的效率。日志分析系统在接受到用户的请求后,可以依据用户的要求,进行自动的数据统计分析,大大降低数据延迟的时间,提高用户请求的效率。
1.4分析结果的可视化
运用图形化的方式,可以有效的展示分析结果,进而有效的提高用户、系统之间的交互性。诸如,应用柱状图,可以反映1个月内的使用量。对于用户来讲,可以有效的了解各类应用的使用量。运用折线图,反映各类应用的变化情况,可以便于用户有效的掌握,各类应用的访问量的变化趋势。具体如图1所示。
2日志分析系统的优化设计
2.1日志分析系统的整体设计
整体设计,主要包含:日志的收集、存储;数据表的配置;后台的数据统计;前端的数据展示。具体如图2所示。
2.2日志的收集、存储
当用户在进行网页浏览的时候,计算机可以对用户的操作行为进行有效的记录。前端的日志收集服务器,可以进行记录的有效收集。现今的日志分析系统,可以进行日志的预处理操作,进而进行日志的分类、清洗与格式的统一操作。同时可以将收集的日志,发送给中间的日志处理服务器。在中间处理服务器,实施处理操作后,可以定时存放在Hadoop分布式集群中。同时在HDFS文件系统中,当做后面的数据统计的输入数据。
2.3数据表配置
数据表配置,可以包含权限的设置;维度设置;表头的指标设置。当用户登录报表系统后,可以依据不同的需求,进而配置差异性的数据表。用户若想尽快的看到数据的结果,也可以对数据表的优先级别,进行特定设置。对于用户配置的维度、指标等都可以重复利用。
2.4数据统计
对于用户配置的数据信息,可以保存到数据库中。同时对于新添加的任务指标,可以启动后台的统计程序。统计程序,可以有效的读取指标的配置信息,进而从HDFS中读取所需数据进行计算。最终可以把结果保存在数据库中。
2.5数据结果的前端展示
数据结果在数据库中,若用户对于数据表中的数据进行查看,系统就可以经由查询数据库,将数据结果的终极数据,在前端页面进行展示。
3结语
伴随互联网的发展,以及分布式计算的有效运用,传统的日志技术的局限性日益凸显。分布式日志系统的优化设计,可以有效的解决传统日志技术的缺陷,从时间上、效率上有效的提高日志文件的处理能力,进而有效的适用现今网络的发展。
参考文献:
[1]薛胜军,刘寅.基于Hadoop的气象信息数据仓库建立与测试[J].計算机测量与控制,2012,04:926-932.
[2]George Coulouris, Jean Dollimore, Tim Kindberg, Gordon Blair. Disributed Systems Concepts and Design[M].北京:机械工业出版社,2013.
[3]Kai Hwang, Geoffrey C. Fox, Jack J.Dongarra. Distributed and Cloud Computing From Parallel Processing to the Internet of Things[M].北京:机械工业出版社,2013.
[4]白超.基于并行计算的海量日志分析系统实现[D].安徽大学硕士学位论文,2013.
[5]胡光民,周亮,柯立新.基于Hadoop的网络日志分析系统研究[J].电脑知识与技术,2010,22.
关键词:分布式文件系统;日志技术;优化
日志,可以有效的反映计算机系统的运行轨迹。日志的分析与管理,是入侵检测、系统管理的基础措施,可以对系统的运行情况进行评估,同时也可以对网络的安全性进行有效分析。因此,日志技术被普遍的运用于安全监测、系统调试与系统监控之中[1]。分布式系统,将分布式计算、并行计算有机结合,可以实现数据的并行计算与分布式存储[2-3]。但是现今的分布式系统中的日志技术,在实际运行中存在一定的问题,需要进行日志技术的优化,进而改善日志数据处理的问题,本文就对分布式文件系统中,日志技术的优化问题进行一定的探讨,期望可以为改善日志技术提供一定的理论借鉴。
1分布式文件系统中日志技术优化的趋势
1.1数据处理方面
伴随云计算时代的到来,分布式计算模型随之出现,日志分析系统运用云计算进行处理。传统的日志分析工具,针对的日志类型较为单一,而以云计算为基础的日志分析系统,其具备较大的扩展性,可以采取多种不同的处理方式,进而满足用户的差异性的要求。实现日志数据的预处理,可以有效的去掉错误与重复的数据,确保日志记录的实用性;完整性;准确性[4]。
1.2数据存储方面
数据存储方面,改变了传统的单一存储模式,改为多节点负载存储。当系统中的单个节点出现问题时,并不会影响其余节点的工作性能,进而有效的提高了系统的稳定性。同时可以在系统正常工作的情况下,有效的恢复失效节点的工作,进而大大提高了系统的使用效率,不会影响用户的正常使用。对于收集的源数据;预处理后的数据;分析处理的结果等,都存储在分布式系统中。在HDFS分布式文件系统中,可以存储收集到的Web日志数据、预处理后的数据,在分布式数据库HBase中,可以存储分析结果[5]。
1.3提高用户请求的效率
数据的处理与分析,都是经由分布式集群进行的,可以有效的提高数据处理的效率。日志分析系统在接受到用户的请求后,可以依据用户的要求,进行自动的数据统计分析,大大降低数据延迟的时间,提高用户请求的效率。
1.4分析结果的可视化
运用图形化的方式,可以有效的展示分析结果,进而有效的提高用户、系统之间的交互性。诸如,应用柱状图,可以反映1个月内的使用量。对于用户来讲,可以有效的了解各类应用的使用量。运用折线图,反映各类应用的变化情况,可以便于用户有效的掌握,各类应用的访问量的变化趋势。具体如图1所示。
2日志分析系统的优化设计
2.1日志分析系统的整体设计
整体设计,主要包含:日志的收集、存储;数据表的配置;后台的数据统计;前端的数据展示。具体如图2所示。
2.2日志的收集、存储
当用户在进行网页浏览的时候,计算机可以对用户的操作行为进行有效的记录。前端的日志收集服务器,可以进行记录的有效收集。现今的日志分析系统,可以进行日志的预处理操作,进而进行日志的分类、清洗与格式的统一操作。同时可以将收集的日志,发送给中间的日志处理服务器。在中间处理服务器,实施处理操作后,可以定时存放在Hadoop分布式集群中。同时在HDFS文件系统中,当做后面的数据统计的输入数据。
2.3数据表配置
数据表配置,可以包含权限的设置;维度设置;表头的指标设置。当用户登录报表系统后,可以依据不同的需求,进而配置差异性的数据表。用户若想尽快的看到数据的结果,也可以对数据表的优先级别,进行特定设置。对于用户配置的维度、指标等都可以重复利用。
2.4数据统计
对于用户配置的数据信息,可以保存到数据库中。同时对于新添加的任务指标,可以启动后台的统计程序。统计程序,可以有效的读取指标的配置信息,进而从HDFS中读取所需数据进行计算。最终可以把结果保存在数据库中。
2.5数据结果的前端展示
数据结果在数据库中,若用户对于数据表中的数据进行查看,系统就可以经由查询数据库,将数据结果的终极数据,在前端页面进行展示。
3结语
伴随互联网的发展,以及分布式计算的有效运用,传统的日志技术的局限性日益凸显。分布式日志系统的优化设计,可以有效的解决传统日志技术的缺陷,从时间上、效率上有效的提高日志文件的处理能力,进而有效的适用现今网络的发展。
参考文献:
[1]薛胜军,刘寅.基于Hadoop的气象信息数据仓库建立与测试[J].計算机测量与控制,2012,04:926-932.
[2]George Coulouris, Jean Dollimore, Tim Kindberg, Gordon Blair. Disributed Systems Concepts and Design[M].北京:机械工业出版社,2013.
[3]Kai Hwang, Geoffrey C. Fox, Jack J.Dongarra. Distributed and Cloud Computing From Parallel Processing to the Internet of Things[M].北京:机械工业出版社,2013.
[4]白超.基于并行计算的海量日志分析系统实现[D].安徽大学硕士学位论文,2013.
[5]胡光民,周亮,柯立新.基于Hadoop的网络日志分析系统研究[J].电脑知识与技术,2010,22.