论文部分内容阅读
随着计算机技术的发展、网络应用的普及、数字化通信技术的广泛应用,数据流逐渐成为电信行业中的主要数据类型之一。与传统数据类型相比,数据流具有有序、高频更新以及潜在无边界等特性,难以使用传统的数据挖掘方法进行分析,这给数据挖掘技术及其在电信行业的应用带来了挑战。本文以电信行业实际应用为背景,以基于数据流全局数据特征的建模分析方法取代目前被广泛采用的以局部数据为样本的数据流挖掘算法,以提高时间效率与预测精度。针对数据流频繁项集挖掘主题,提出基于最大频率时间窗模型的GGACFI-MFW算法,实现对数据流全局频繁项集的在线挖掘;针对数据流分类预测问题,提出基于数据流频繁模式的CBMP算法,实现对带有概念漂移的数据流进行在线分类预测;针对数据流趋势预测问题,提出最大最小频率时间窗模型的MM-FTP算法,实现对数据流数据对象频繁度变化趋势的实时监控及预测;结合电信企业工程实践经验,设计一套电信业数据流商业智能管理系统,实现对电信数据流的实时监控与在线分析。本文的主要研究内容和贡献包括:Ⅰ.针对数据流频繁项集挖掘问题,提出GGACFI-MFW (Generating Global Approximate Frequent Itemsets on Max-Frequency Window model)算法,实现准确、高效地挖掘全局频繁项集;设计一种新的最大频率模式树MFP-Tree (Max-Frequency Pattern Tree)结构存储概要信息,采用自适应的方法为每个数据项集单独划分时间窗口;提出一种新的选择性更新机制,只对最新到达的事务子集进行更新,通过候选集控制对频繁模式树的横向遍历,提高算法更新效率。与现有频繁项集挖掘算法相比,GGACFI-MFW算法不仅时间效率高,且能够根据数据自身特性,找到更多的频繁项集。Ⅱ.针对带有概念漂移的数据流在线分类问题,提出一种基于全局频繁模式的数据流分类算法CBMP Classification Based on Max-frequency Pattern),将概要数据存储于一种新的最大频率模式分类树CMFP-Tree (Classification on Max-Frequency Pattern Tree)中,使用模糊的方法构建分类器,在线更新概要信息与分类器,实现对数据流数据的实时分类预测。在概念漂移特征显著的情况下,CBMP算法的预测精度与时间效率均高于现有其他数据流分类算法。Ⅲ.针对数据流数据对象的频繁度变化趋势预测问题,在最大频率模式树MFP-Tree的基础上设计一种新的最大最小频率模式树MMFP-Tree (Max-Min-Frequency Pattern Tree),存储数据流频繁趋势预测算法中所需要的概要信息;提出一种新的数据对象频繁度变化趋势衡量指标——频繁度变化率,对数据对象的频繁度变化趋势进行定量描述;提出一种预测数据对象频繁度变化趋势的最大最小频繁趋势预测算法MM-FTP (Max-Min-Frequency Tendency Prediction),能够在有限的空间内高效、准确地找到数据对象的频繁度变化趋势;将连续属性离散化,MM-FTP算法同样能够预测传统的指数型数据流的变化趋势;与基于频繁模式的分类预测算法CBMP结合,该算法能够对分类器置信度变化趋势进行预测。Ⅳ.针对电信行业数据流在线分析处理需求,结合静态数据挖掘在电信行业的应用实例及电信业数据挖掘方法论,设计实现了一套针对电信行业的数据流商业智能管理系统,将数据流频繁项集挖掘技术、数据流在线分类预测技术、数据流趋势预测技术成功应用于电信行业用户业务套餐组合在线交叉销售及预付费用户欠费、流失实时监控预警的实际商业应用中。