论文部分内容阅读
在电信网络管理中,故障管理是一个重要且难度很大的任务之一,而故障管理的关键和难点是故障诊断,它依赖于故障诊断的相关知识,尤其是告警信息与故障的关联知识,这些知识可来源于对网络产生的大量告警信息的分析。因而故障诊断是告警信息分析的目的,而对告警进行分析是实现故障诊断的必经途径。目前在电信故障管理中对告警流的处理主要是采用告警关联系统,它是用于分析告警数据的专家系统。然而电信网络本身的复杂性导致获取必要的知识来为某个特定网络构建一个告警关联系统十分困难。文章以重庆市的“基于知识发现的电信网络故障管理系统的研究”科技攻关项目为背景,参照国外电信网络告警分析系统TASA系统的应用模型,重点研究了构建电信网络故障诊断告警关联系统要用到的数据挖掘技术。文章参照已经提出的数据挖掘模型,分析并建立了对告警数据库进行挖掘的数据挖掘系统,并详细阐述了告警数据中的数据挖掘全过程,包括数据收集与预处理、模式发现、规则后处理和应用三个阶段,对于有关问题给出解决建议。论文在充分分析目前电信告警数据中的频繁情节挖掘算法的基础上,针对故障诊断需要,提出了挖掘多维频繁情节,使之能够挖掘出具有两个时间界限的频繁情节规则,同时适合于大数据集挖掘。多维频繁情节规则在具有一维频繁情节规则所具有的时间上的偏序关系外,还具有更多与发生故障的设备相关的信息,因而更加适合故障诊断。在对多维频繁情节挖掘过程中,通过对多维情节挖掘中事件属性的映射和转换,减少了模式匹配的时间和中间过程所需要的存储空间。论文在对关联规则经典挖掘算法进行充分分析的基础上,针对电信数据的特点,提出适应长模式的关联规则快速挖掘算法. 该算法建立在强健的格的理论基础上,把搜索空间递归地动态划分为小的部分,避免了字符串匹配和极大减少候选生成。算法利用二进制位向量的存储方式和启发式方法压缩二进制位向量,结合C++语言位运算“&”一次性操作32位,大大减少了时间和空间消耗。文章提出的算法与FP_growth算法进行了比较,并给出了相应的实验结果。简要分析了数据挖掘过程中采取的措施并给出诊断过程中对规则的求精算法。