数据流关联规则挖掘研究及其应用

来源 :浙江大学 | 被引量 : 0次 | 上传用户:tapril10
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是处理海量数据的一个重要方法,而将其应用到数据流中是一个具有挑战性的新兴领域。数据流中的数据挖掘技术在入侵检测系统、传感器网络、电信行业等领域具有十分广泛的应用背景,因此开展这方面的研究具有非常重要的现实意义。传统的关联规则挖掘算法只能处理数据集中的离散属性而无法处理连续属性,这是制约它在实际项目中应用的主要瓶颈之一。在静态数据集中,部分学者提出了离散化、模糊化等方法将连续属性加入关联规则挖掘过程中,但是没有文献在数据流环境中专门研究和讨论此问题。因此,本论文通过深入研究数据流关联规则挖掘问题,提出了模糊关联规则挖掘方法和基于模糊关联规则的实时数据挖掘体系。具体的研究结果如下:1.针对数据流动态变化的问题,提出了隶属度函数偏移度指标(MFB_measure)来度量连续属性的当前隶属度函数在当前数据中的合适程度。实验结果表明,隶属度函数偏移度指标能有效地捕捉数据流中的变化。2.针对传统数据流关联规则挖掘算法无法将连续属性加入挖掘过程中的问题,提出了基于聚类算法的模糊关联规则挖掘算法FFI-Stream。该算法利用隶属度函数偏移度指标监测隶属度函数的合适程度,及时地利用数据流聚类算法动态地更新隶属度函数。实验结果表明,FFI-Stream具有较好的性能。3.针对FFI-Stream算法无法有效处理具有高维连续属性的数据流的问题,提出基于遗传算法的数据流模糊关联规则挖掘算法GA-FFI-Stream. GA-FFI-Stream动态地维护数据流中的概要结构,使其适应在数据流中内存、CPU等资源有限的特点;采用启发式信息提高基于遗传算法提取隶属度函数方法的效率。实验结果表明,该算法能够克服FFI-Stream算法在连续属性高维时性能差的问题。4.针对数据流中的数据挖掘技术在实际项目中的需求,提出了基于模糊关联规则的实时数据挖掘体系(Real-time Data Mining System Based on Fuzzy Association Rules, RDMS-FAR)。该体系以模糊关联规则挖掘模块为基础,并衍生出分类模块等。RDMS-FAR的模糊关联规则挖掘模块基于FFI-Stream和GA-FFI-Stream算法框架,在分类模块中提出了数据流中的以模糊关联规则分类为基分类器的提升算法ruleboost。实验结果表明,该体系是有效的。最后对全文的研究工作进行了总结,并对这一研究领域的未来研究方向进行了展望。
其他文献
插电式混合动力汽车(Plug-in hybrid electric vehicle, PHEV)与传统的电动汽车相比具有更大的电池容量,能够通过家用电网为其充电来储存电能,可以单独在纯电动(EV)模式下驱
雷达目标特性研究是模式识别在航天及国防领域的重要研究课题,而复杂目标雷达散射截面的精确计算是其中一个重要研究方向。有限元法能将目标问题转化为具有特殊性质的稀疏线性
随着环境问题和能源危机日益突出,人类已经迫切需要寻找清洁可再生能源取代传统化石能源。太阳能因其资源丰富、分布广泛、永不枯竭等优点,成为最具有商业前景的可再生能源之一
表面缺陷检测是工业流水线上的重要一环。传统的表面图像缺陷检测方法一般分为两个阶段:特征选取和缺陷识别。这类方法受限于图像特征的选择,针对不同的对象要设计不同的特征提
萤火虫优化算法(GSO算法)是一种模拟了萤火虫发光的生物学特性演变而来的随机优化算法,也是一种新兴的群智能优化算法,在多信号定位、多模函数优化方面有广泛的应用前景。置换流水线调度问题(PFSP)是混合流水线调度问题中的一类经典的车间调度问题,是一种NP难题。相关资料表明,有接近四分之一的生产调度问题可以简化为PFSP问题,具备很高的研究价值。本课题的主要研究目的是在全面分析研究萤火虫优化算法的基础
随着工业机器人在自动化制造系统中的应用,人们对作业任务快速变化的高效控制提出了很高的要求。迭代学习控制(Iterative Learning Control,简称ILC)是针对这种精确控制任务
掌上语音数字助理(PVDA)能够很好地克服现有通讯工具难以为哑而不聋残疾人、声哑患者及体弱多病以致发音不清的老年人所使用的困难,也可以克服通讯工具在安静场合、喧闹场所
针对目前市场上二极管HTIR在线测试系统的空白,本文提出了一种新的HTIR在线测试方法,采用了一种新的高温自热的方式,彻底改变了以往必须采用高温箱加热,从而无法实现在线测试。整
由多个智能体组成的分布式多智能体系统,相比单个个体,更具有自组织性和自适应性。多智能体系统中,智能体之间能够互相通信、合作,解决更复杂的问题。因此,多智能体系统在很多重要
齿轮作为机械设备的传动部分,担负着传递动力和运动的重要使命,齿轮故障不仅会损坏齿轮本身,还直接关系着整个设备的运转,甚至危及到人身安全,所以对齿轮传动系统进行状态监测及故障诊断具有重大意义。遗传算法是模仿自然界生物进化机制发展起来的随机全局搜索优化方法,它可在搜索过程中能够自动获取和积累有关搜索空间的知识,并且自适应地控制搜索过程以求得最优的方案,具有良好的全局收敛能力和收敛速度快、效率高的优点,