决策树算法在网站服务器日志分析中的应用

来源 :硅谷 | 被引量 : 0次 | 上传用户:kulahai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要 互联网技术的发展,大大提高了人们获取信息和咨询的灵活度和及时性,上网已经成为人们日常生活中的重要内容,人们通过浏览网站可以享受到娱乐,还能获取自己需要的知识,为了满足用户不断增加的使用需求,各类网站相应的逐渐扩大自己的规模,这样的举措虽然方便了用户更好的体验网站内容,但同时也为网站的日常维护工作提出了新的要求和挑战。文章简要分析决策树算法在网站服务器日志分析中的应用,为如何维护和管理庞大的数据提供可参考的意见。
  关键词 网站维护;数据挖掘;决策树;网站服务器日志
  中图分类号:TP311 文献标识码:A 文章编号:1671-7597(2013)22-0105-01
  1 决策树算法分析
  1.1 决策树算法概念分析
  决策树算法是从机器学习中分类出来的一种分类方法,属于数据挖掘技术的研究范畴,决策树算法首先是对数据进行处理,然后进行可读规则或决策树的计算,该计算是基于归纳算法实现的,在归纳算法计算后,利用已形成的决策树做进一步的数据分析与处理,决策树凭借其先天算法优势在对庞大数据环境中分析中有着广泛的应用。通过以上分析可知,归纳算法是决策树算法中的核心内容,所谓的归纳就是将事物从特殊归结到普通的过程,是从事物的外在特征表现来总结出若干个规律性结论。决策树实质上属于一个分类器,因其数据结构酷似一种二叉树的树结构而得名。在决策树中的各个分枝树都对应一个测试结果,每个非叶结点对应于采样中的一个属性测试,叶子代表一个种类或者是种类的一种分布,数据种类的分类原则由决策树根到叶的路径进行划分,最为常见的决策树归纳算法是基于自上而下递归计算基础的,且其构造的主要元素为训练元组及其相关标号。
  1.2 决策树算法应用优点分析
  决策树与其他数据挖掘技术相比,有着如下优点,其一就是决策树的算法提供的数据都比较直观易懂,尤其是与神经网络算法相比,再者就是决策树在大规模数据挖掘中的效率相对要高,数据挖掘的过程更为高效,节省了大量的重复操作所消耗的时间。此外,与其他数据挖掘方式不同,决策树算法只对训练较为集中的数据有附加信息的要求,其他数据则不需要附加信息。最后一个也是最为重要的一个优点就是决策树的算法在实际使用时的准确率特别高。
  1.3 决策树的算法分类
  1)ID3算法。ID3算法是利用信息熵来展开的一种决策树算法,主要通过对属性集的取值来对数据的类型作出判断,ID3算法的核心内容是在决策树的各个节点上事先选择相关的属性,其选择的标准是信息增益,这样就会使得在每次测试时获得最大的信息种类,该算法的优点在于方法简单易操作,运行理论清晰,便于推广,对于大规模的学习问题有着较好的处理效果。
  2)SLIQ算法。SLIQ算法在决策树算法中属于一种比较快速的算法,伸缩性较强,不但能够处理离散型数据也能处理连续型数据。SLIQ算法在保留其他技术处理数据精确度的基础上,提高了学习的时间,也就数说SLIQ算法具有更快的运行速度,再者就是SLIQ算法对于所要处理的数据的数量以及属性分类不进行限制,从这个角度上来讲,SLIQ算法可以处理其他算法不能处理的大规模数据分类的情况,从处理数据的侧重点来说,SLIQ算法实质上是提高了数据挖掘技术的分类精度,但是该算法的缺点在于容易受主存储容量的限制,主储存器的容量能够直接影响其数据存储的分类与处理。
  2 网络服务器分析中的决策树算法应用探究
  2.1 网站维护现状
  目前网站维护工作中的主要问题就是在正常环境下,如果网站出现崩溃情况,对于故障的定位分析及其困难,过程非常繁琐,在当代每个网站的服务其中都具备预警功能,所以维护网站工作的开展要以服务器中的预警日志为导向,并在此为基础对服务器进行全面的分析,但在处理器预警日志的分析中应注意,预警日志的产生十分迅速,产生的速率过快是不宜于我们进行故障定位的,因为我们要处理的信息数据中会混杂大量的告警信息,这就对数据挖掘技术的效率提出了较高要求。
  2.2 网站服务器日志分析中决策树算法应用探究
  在网站服务器日志分析的决策树算计应用过程中,应首先开展数据准备的操作,数据准备操作中又包括数据的选取和数据的预处理两个部分,数据的选取操作要求从系统的多个运行环境中提取告警日志的数据信息并加以收集,为进一步提高数据处理的效率和质量,要再对收集后的数据进行预处理操作,以此实现数据处理精度的有效提升。作为发现数据中包含知识的主要过程,数据预处理的计算精度在一定程度上能够影响到决策精度。在完成数据准备工作后要建立其决策树分类和数据挖掘的对应模型,然后通过决策树在数据挖掘技术中传统的方式来进行数据挖掘。
  2.3 决策树模型的评估和验证
  决策树模型评估是保证数据取得较高实际使用价值的关键,所谓的模型确定就是利用合格验证证明模型在制定的范围内,按照用户的要求,按照合格的正确率进行模拟筛选。利用模型验证实质上是通过实际的数据转换而来的,通常情况下数据挖掘的结果就是通过模型验证来进行进一步的确认。评估分类器有多种方法,其中准确性较高的是利用保持手段进行分类,该分类方法是通过对已标记数据进行类型划分,并通过将其进一步划分为相交且互补的数据集合,以此实现数据集合的训练和检验,数据集合训练是用来归纳分类模型,评估模型的模拟性能则是在检验集上。训练集与检验集的划分一般都是按照50%的比例来进行分配,总体数据中一半的数据用来构造决策树,另一半数据的功能则主要是对决策树的内容进行类型的划分。在数据训练和检验过程中,也可以采用2/3的数据进行数据训练集的构造,而剩下的1/3用来分类。但是数据保持的计算方法在实际应用中也有着很大局限性,如被标记样本中属于用户训练类型的数据量较少,从用户训练数据角度分析,为选取部分数据进行数据校验,所以以部分数据为基础的模型效能便不如用全部标记样本建立起的数据模型。此外,模型结构的可靠性过于依赖由训练集构成的决策树,如果数量比较少的话,则结果的产生的方差就比较大,相应的准确率就比较低。还有一种常用的方法是交叉验证,交叉验证法则是通过泛化误差,来实现对模型参数的调整,这样就会弥补保持法的缺点。
  3 总结语
  本文主要介绍了决策树算法的概念以及相关分类,由于篇幅有限只是举例介绍了两种优点较为明显的算法分类,从网站服务器日志分析的实际需求出发,提出了网站日志告警日志分析中决策树算法的应用,网站维护工作是一项动态处理过程,我们要根据网站建设中出现的问题,及时的补充和完善相关算法,这样才能满足用户对网站安全性的需求。
  参考文献
  [1]张邵晶,于忠龙.浅析数据挖掘的算法与推理方法[M].北京水力研究出版社,2010.
  [2]王冬梅.试论数据挖掘技术的研究现状及其特征综述[J].图书与情报,2008(5).
  [3]杨展空.现代数据挖掘技术在数据处理故障诊断中的应用研究[M].西安电子科技大学出版社,2013.
  [4]廖里奇,余泽,吴渝冬.浅谈数据挖掘和数据库技术在通信业中的应用[J].北京邮电学院学报,2012,15(3):31-45.
其他文献
摘 要 河钻井四公司地源热泵节能改造项目是中石化“十一五”重点节能项目,对于促进胜利油田节约能源、保护环境、降低建筑能耗,推进油田绿色低碳战略的实施有着重要意义。  关键词 地源热泵;系统;应用;探讨  中图分类号:TK511 文献标识码:A 文章编号:1671-7597(2013)22-0100-02  黄河钻井四公司地源热泵节能改造项目是中石化“十一五”重点节能项目,对于促进胜利油田节约能源、
摘 要 无线网络用户数目的快速膨胀,使网络能耗也急速增长,减少无线网络能耗成了运营商急需思考的问题之一。文章分析了无线接入网络的能耗结构,并探究了无线接入网节能技术的新策略。  关键词 WCDMA;无线接入网;节能技术  中图分类号:TN929.5 文献标识码:A 文章编号:1671-7597(2013)22-0093-01  随着用户对无线业务服务质量要求的提升,如何在不降低网络性能的基础上减少
摘 要 2010年10月发生在伊朗核电站的“震网”(Stuxnet)病毒,给其核电系统造成了不可挽回的损失,也为各个企业的工业网络使用安全提供警示。目前,很多企业都把工业网络的安全防护提到了前所未有的高度,加大了人力和经济的投入,确保内部核心网络的安全。结合从事煤矿工业网络维护经验,分析了目前工业网络应用存在的问题。  关键词 工业网络;应用;分析  中图分类号:TP3 文献标识码:A 文章编号:
摘 要 转子叠片完成后,转子热缩应用电磁感应原理,通过在转子磁轭上绕一次电缆,利用产生的涡流发热,最终完成整个热套过程。结果证明,通过磁化试验的办法对转子进行热套工作,是现实可行的。  关键词 热套;磁轭;磁场;涨量  中图分类号:TV734 文献标识码:A 文章编号:1671-7597(2013)22-0121-01  1 概述  某抽水蓄能电站300 MW可逆式发电电动机有ALSTOM公司供货
摘 要 在对哈巴河金坝铜矿现有地质、水文地质资料综合研究的基础上,分别利用水文地质孔抽水试验成果和竖井水文地质资料对矿坑涌水量进行了预算,并对计算结果进行了分析,为后续矿山勘探工作开展及开采方案制定提供理论参考依据。  关键词 金坝铜矿;充水因素;涌水量预测;计算结果;评价  中图分类号:TD742 文献标识码:A 文章编号:1671-7597(2013)22-0114-02  矿坑涌水量是指矿山
摘 要 随着SDH的广泛应用,SDH网络在传输系统中的地位越来越重要,为了提高维护人员对SDH传输系统的故障处理能力,保障传输系统的安全、稳定运行。文章介绍了一些SDH传输故障的常用处理方法。  关键词 SDH;光传输系统  中图分类号:TN91 文献标识码:A 文章编号:1671-7597(2013)22-0112-01  SDH称为同步数字体系,它统一了数字通信的速率等级、网络节点接口、帧结构
摘 要 根据现下电力系统运行的稳定控制效果以及内部时钟发生器的校准程度进行必要的简单、可靠性的控制,实现整个广域测量系统内部的稳定相量测量单元以及服务器高端配备需求,使得整个系统的稳定器根据一定同步的时间要素以及较为先进的电网低频振荡抑制手段,确保不同厂站数据的同时间控制效果,满足总体电力控制效益的不断改进。  关键词 广域电力系统;稳定器;控制工程;时钟发生器;同步效果;输电质量  中图分类号:
漏磁法是钢丝绳检测的主要方法 ,通常要求其采用的传感器具有体积小、灵敏度高、耗电小等特点。文章比较了漏磁检测中常用的线圈、霍尔传感器和巨磁阻等几种磁传感器的原理及性能,并通过试验实测了霍尔传感器和巨磁阻的噪声水平,结果表明巨磁阻传感器具有较小的噪声。结语中给出了钢丝绳检测磁传感器选择的建议。
摘 要 文章介绍了江苏大屯发电厂#6发电机定子接地故障的检查和处理过程,并对故障原因进行探讨,认为发电机相关设备安装工艺不良是造成此次接地故障的根本原因,并提出相应的防范措施。  关键词 发电机;定子接地;处理  中图分类号:TM311 文献标识码:A 文章编号:1671-7597(2013)22-0122-02  1 设备概况  #6发变组采用单元制接线经SF6断路器并入220 kV母线,发电机
摘 要 随着科学技术的发展,为了适应新形势的教学需求,高校语音室的建设与管理也正处于逐步升级中,根据语音实验室5-6年的常规使用寿命和设备的实际情况,始建于早期实验室设备已经出现不同程度的老化,如何完成旧语音实验室的改建,是每一位管理人员值得认真思考的问题。  关键词 语音室改建;建设;语音教学  中图分类号:TP3 文献标识码:A 文章编号:1671-7597(2013)22-0112-01