论文部分内容阅读
随着数据库技术的飞速发展以及数据库管理系统的广泛应用,人们收集数据的能力有了巨大的提高,积累的数据越来越多。在这浩瀚无边的数据海洋中潜藏着大量重要的、有趣的信息。因为这些有趣信息可以为管理者提供强有力的决策支持,所以从这个海量数据源中快速高效地获取有价值信息是包括企业,个人等在内的所有用户必须要面临并解决的问题。然而传统的数据统计分析方法已经不能够满足目前的需要,于是数据挖掘技术便应运而生了。数据挖掘(Data Mining),也称为数据库中的知识发现,是指从大量的、不完全的、有噪声的、模糊的数据中抽取出潜在的、有效的、新颖的、有用的和最终可以理解和运用的知识的过程。它是涉及数据库、计算理论、人工智能、统计理论、认知科学等众多学科的一门交叉学科,能够对数据进行关联分析、分类、聚类、预测、孤立点分析、演变分析等。尽管数据挖掘技术诞生不久,但它广泛的应用前景和巨大的魅力,吸引了众多学者极大的研究热情和产业界人士的广泛关注。有趣模式挖掘是数据挖掘中的一个重要研究目标。所谓有趣模式是指那些潜在的、新颖的、有价值的、使用户感兴趣的、易被理解和运用的数据模式。其研究成果可广泛应用于金融、股票、客户管理、零售业、制造业、地质勘探和电子商务等行业的决策分析应用软件中,既具有深入的理论价值又具有广泛的应用价值。例如,本文研究的异常模式和反期望模式,除了可以提供商机、科研启示和犯罪线索外,还可用在金融诈骗检测、股市异常交易监控、和理解客户消费行为的变化趋向。基于多数据库的全局模式,是通过综合多方位信息估计一个对象,除本文用来管理客户外,还可用在很多领域,如地质勘探中的多传感器数据分析与合成;现代军事中的敌对飞行器定位与预测、潜艇识别与监控、和军事信息的分析与合成。自从1993年Agrawal等人首先提出挖掘顾客交易数据库中项集间的关联规则(频繁模式)问题,以后众多的研究人员对有趣模式的挖掘问题进行了大量的研究,他们不仅对原有算法进行了优化,还陆续提出了许多新的有趣模式,如单数据库中挖掘出的例外模式,exceptional patterns [3,4,5,10],unexpected patterns[8]和change patterns[6]等。本文中我们定义了反期望模式,该模式既不同于基于‘支持-置信’模式挖掘出的频繁模式,也不同于[3,4,5,10,8,6]所表现的‘规则异常(exceptions of rules)’和‘surprisingpatterns’。并设计两种新算法挖掘反期望模式:(1)通过基于方差计算的剪枝算法生成反期望项集,即反期望模式的候选集;(2)通过基于最近邻居图的KNNG算法和基于相关分析的CA算法挖掘反期望模式。序列数据库中挖掘出的有趣模式有:全周期模式[15],Segment-Wise周期模式[13],半周期模式[16,17,22]和surprising周期模式[25]等。本文定义一种新颖的周期模式(RPP),并设计算法对其进行挖掘。该模式不同于任何一种以支持度为度量标准挖掘的周期模式或半周期模式,同一个RPP中的各个事件之间存在很强的相关性,前键事件发生m次后,预示着后键事件将要发生n次。RPP模式可能是基于事件序列的事件对或事件组;也可能是基于交易数据库的Item对或Item组;也可能是基于波形分析的不同强度的信号波;还可能是基于规则序列的规则对。RPP不一定有很高的支持度,却有很广的应用范围,例如,生物计算,地震预测,股票分析等。由于RPP长度未知,还可能有噪音存在,且既可能存在于频繁模式中也可能存在于非频繁模式中,所以为了减少复杂度,我们采用变形小波树(TWT)算法进行预处理,然后在此基础上进行周期模式挖掘。数据流中挖掘异常模式的方法大致可分为两类:点监测和区间监测(本文4.1部分将给出详述)。本文中为了保证可以随时输出当前的异常模式,我们引入一种简单且有效的数据结构(三层时间区间嵌套模式(TTI))监测数据流。对新到数据是否为异常加以判断,评价的标准不是预先分配的静止阈值,而是由算法(KIC:核估计和置信区间聚类分析)计算得到的动态阈值。从而在仅占用很小内存的前提下提高了算法的准确性。在此基础上设计的SWMA算法进一步降低了时间和空间复杂度。从多数据库中提取全局有趣模式如:高选票模式[45,52]和全局例外模式[37,39]等。各种挖掘方法见1.3.3部分详细论述。本文基于核函数和客户生命价值,提出一种从高维多数据库中挖掘全局有趣模式的KEMGP算法。基于以上讨论,本文主要的研究工作如下:·阐述了数据挖掘的定义,功能/任务,挖掘流程;常见有趣模式,挖掘有趣模式的数据源,现有挖掘方法和研究意义。·本文分别基于单数据库,序列数据库,数据流和多数据库定义了四种有趣模式,即反期望模式;RPP模式;异常模式和全局模式。·针对每种有趣模式的挖掘,分别提出了一到两种高效的新算法。·在模拟的和真实的数据集上进行了大量的实验,对本文方法的准确性,可行性和时效性进行了验证。