数据库中有趣模式挖掘算法的研究

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:uuupppppp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库技术的飞速发展以及数据库管理系统的广泛应用,人们收集数据的能力有了巨大的提高,积累的数据越来越多。在这浩瀚无边的数据海洋中潜藏着大量重要的、有趣的信息。因为这些有趣信息可以为管理者提供强有力的决策支持,所以从这个海量数据源中快速高效地获取有价值信息是包括企业,个人等在内的所有用户必须要面临并解决的问题。然而传统的数据统计分析方法已经不能够满足目前的需要,于是数据挖掘技术便应运而生了。数据挖掘(Data Mining),也称为数据库中的知识发现,是指从大量的、不完全的、有噪声的、模糊的数据中抽取出潜在的、有效的、新颖的、有用的和最终可以理解和运用的知识的过程。它是涉及数据库、计算理论、人工智能、统计理论、认知科学等众多学科的一门交叉学科,能够对数据进行关联分析、分类、聚类、预测、孤立点分析、演变分析等。尽管数据挖掘技术诞生不久,但它广泛的应用前景和巨大的魅力,吸引了众多学者极大的研究热情和产业界人士的广泛关注。有趣模式挖掘是数据挖掘中的一个重要研究目标。所谓有趣模式是指那些潜在的、新颖的、有价值的、使用户感兴趣的、易被理解和运用的数据模式。其研究成果可广泛应用于金融、股票、客户管理、零售业、制造业、地质勘探和电子商务等行业的决策分析应用软件中,既具有深入的理论价值又具有广泛的应用价值。例如,本文研究的异常模式和反期望模式,除了可以提供商机、科研启示和犯罪线索外,还可用在金融诈骗检测、股市异常交易监控、和理解客户消费行为的变化趋向。基于多数据库的全局模式,是通过综合多方位信息估计一个对象,除本文用来管理客户外,还可用在很多领域,如地质勘探中的多传感器数据分析与合成;现代军事中的敌对飞行器定位与预测、潜艇识别与监控、和军事信息的分析与合成。自从1993年Agrawal等人首先提出挖掘顾客交易数据库中项集间的关联规则(频繁模式)问题,以后众多的研究人员对有趣模式的挖掘问题进行了大量的研究,他们不仅对原有算法进行了优化,还陆续提出了许多新的有趣模式,如单数据库中挖掘出的例外模式,exceptional patterns [3,4,5,10],unexpected patterns[8]和change patterns[6]等。本文中我们定义了反期望模式,该模式既不同于基于‘支持-置信’模式挖掘出的频繁模式,也不同于[3,4,5,10,8,6]所表现的‘规则异常(exceptions of rules)’和‘surprisingpatterns’。并设计两种新算法挖掘反期望模式:(1)通过基于方差计算的剪枝算法生成反期望项集,即反期望模式的候选集;(2)通过基于最近邻居图的KNNG算法和基于相关分析的CA算法挖掘反期望模式。序列数据库中挖掘出的有趣模式有:全周期模式[15],Segment-Wise周期模式[13],半周期模式[16,17,22]和surprising周期模式[25]等。本文定义一种新颖的周期模式(RPP),并设计算法对其进行挖掘。该模式不同于任何一种以支持度为度量标准挖掘的周期模式或半周期模式,同一个RPP中的各个事件之间存在很强的相关性,前键事件发生m次后,预示着后键事件将要发生n次。RPP模式可能是基于事件序列的事件对或事件组;也可能是基于交易数据库的Item对或Item组;也可能是基于波形分析的不同强度的信号波;还可能是基于规则序列的规则对。RPP不一定有很高的支持度,却有很广的应用范围,例如,生物计算,地震预测,股票分析等。由于RPP长度未知,还可能有噪音存在,且既可能存在于频繁模式中也可能存在于非频繁模式中,所以为了减少复杂度,我们采用变形小波树(TWT)算法进行预处理,然后在此基础上进行周期模式挖掘。数据流中挖掘异常模式的方法大致可分为两类:点监测和区间监测(本文4.1部分将给出详述)。本文中为了保证可以随时输出当前的异常模式,我们引入一种简单且有效的数据结构(三层时间区间嵌套模式(TTI))监测数据流。对新到数据是否为异常加以判断,评价的标准不是预先分配的静止阈值,而是由算法(KIC:核估计和置信区间聚类分析)计算得到的动态阈值。从而在仅占用很小内存的前提下提高了算法的准确性。在此基础上设计的SWMA算法进一步降低了时间和空间复杂度。从多数据库中提取全局有趣模式如:高选票模式[45,52]和全局例外模式[37,39]等。各种挖掘方法见1.3.3部分详细论述。本文基于核函数和客户生命价值,提出一种从高维多数据库中挖掘全局有趣模式的KEMGP算法。基于以上讨论,本文主要的研究工作如下:·阐述了数据挖掘的定义,功能/任务,挖掘流程;常见有趣模式,挖掘有趣模式的数据源,现有挖掘方法和研究意义。·本文分别基于单数据库,序列数据库,数据流和多数据库定义了四种有趣模式,即反期望模式;RPP模式;异常模式和全局模式。·针对每种有趣模式的挖掘,分别提出了一到两种高效的新算法。·在模拟的和真实的数据集上进行了大量的实验,对本文方法的准确性,可行性和时效性进行了验证。
其他文献
Blog是一种流行的个人媒体。它承载了大量有价值的信息,并且在互联网中的地位越来越重要,已经成为人们日常生活和工作中不可或缺的一部分。然而由于blog与传统的网页的信息特点
随着生物医学领域文献的爆炸性增长,从生物医学文献中自动获取生物医学知识已经成为生物信息学研究的热点问题,而由于蛋白质相互作用关系对于生命科学有着特殊的重要意义,因而蛋
图像是人们生活中信息交流最为重要的载体,也是蕴涵信息量最大的媒体。众所周知,数字图像的数据量非常庞大,必须经过有效的压缩,才能满足数字图像的高速传输和存储。因此,图
在2006年的IEEE INFOCOM会议中,会议组织专设了一个有关高速网络的讨论组,旨在讨论千G位网络所带来的挑战和解决的办法,其中高速网络中的拥塞控制机制正是当前研究领域上的一
无线传感器与执行器网络(Wireless Sensor and Actor Network,WSAN)是在无线传感器网络(Wireless Sensor Network,WSN)的基础上衍生而来,通常由若干传感器节点和执行器节点组
近年来随着移动通信技术迅速发展,它已有逐渐取代固定电话网的趋势。但是移动通信仍然存在着信号不稳定,话费较贵的缺点。因此如何融合移动通信和固定电话网成为研究的热点。
随着云存储技术的不断进步,如今已经有越来越多的企业和个人都开始选择将数据存储在云平台上。与此同时,数据的安全问题也受到了越来越多人的关注。尽管我们可以通过加密数据
随着入侵检测技术的深入研究和入侵检测产品的广泛应用,对入侵检测系统进行评估已经成为一个十分重要的研究领域。本文首先对入侵检测系统评估的现状进行了深入地总结研究,在
数字视频和音频压缩技术的进步,以及网络和通信技术的发展,使得在传输介质上传送实时视频和音频信息已经步入了实用化阶段,这就为数字电视的产生提供了条件。针对数字音视频
《中国海洋发展报告2014》围绕党的十八大提出的建设海洋强国战略部署和2013年政府工作报告的要求,结合2013年海洋事业发展和海洋领域发生的重大事件,全面论述了中国海洋事业发