基于演化计算的模式挖掘算法研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:eusnkk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据的价值和意义在于能够指导实践,而数据价值的发现离不开数据挖掘技术。模式挖掘作为数据挖掘领域基础的且重要的研究分支,在诸多领域都有广泛的应用。随着数据量的不断增加和数据维度的增高,传统模式挖掘方法通常会面临极大的时空开销。演化计算(evolutionary computation,EC)作为一种通用的优化方法,在很多实际应用问题中表现出的性能卓越,对它的研究几乎已经渗透到各个领域。近年来,使用演化计算的相关方法来解决模式挖掘问题逐渐成为一个热门话题。本文研究了更高效率的高效用项集挖掘(high-utility itemset mining,HUIM)方法和更加完备的模式挖掘问题模型及其求解方法。现有基于演化计算的高效用项集(high-utility itemsets,HUIs)挖掘方法,在有限时间内通常只能挖掘到部分满足条件的高效用项集;若能挖掘出全部的高效用项集,往往耗时严重。这一问题会随着最小效用阈值的降低、高效用项集的数量的增多而变得更加突出。为了提高挖掘高效用项集的效率,提出了基于改进二进制粒子群优化算法的高效用项集挖掘方法(HUIM based on an improved binary particle swarm optimization,HUIMIBPSO)。在HUIM-IBPSO算法中,为了提高挖掘高效用项集的效率,提出了包括针对高效用项集的邻域探索策略、重启策略、粒子运动方向调整策略和修复策略在内的多种策略。此外,为了减少对重复粒子的适应度评估,降低算法的整体耗时,HUIM-IBPSO算法中引入了一种适应度值散列技术。为了进一步提高挖掘高效用项集的效率,提出了基于改进遗传算法的高效用项集挖掘方法(HUIM based on an improved genetic algorithm,HUIM-IGA)。在HUIM-IGA算法中,为了维持种群的多样性,从而减少在演化过程中高效用项集的遗漏,算法设计了一种种群多样性维持策略。此外,精英策略在一定程度上防止了在算法的运行过程中高质量解的丢失。在真实数据集上的实验表明,提出的HUIM-IBPSO算法和HUIM-IGA算法无论是在收敛速度、挖掘的高效用项集的数量,还是在算法耗时方面,都优于最新的基于演化计算的高效用项集挖掘方法。为了提高模式挖掘问题模型的完备性,以挖掘在一些实际应用场景中,用户关心的那些出现频繁且完整,同时具有较高效用值的模式,提出了基于支持度、占有度和效用值的三目标模式挖掘问题模型。针对该多目标优化问题模型,提出了一种改进的多目标演化算法(improved multi-objective evolutionary algorithm for highly qualified pattern mining,MOEA-PM),以得到一组最优折衷解。在MOEA-PM算法中,提出了一种新的种群初始化策略,用于保证种群在可行解空间中的有效分布。通过分析问题模型的性质,还提出并使用了一种辅助工具,用来加快算法的收敛速度。在真实数据集上的实验结果表明,提出的三目标问题模型能够发现事务数据集中出现频繁、效用值高,同时相对完整的模式。与目前最新文献上基于多目标进化算法的模式挖掘方法相比,MOEA-PM算法在运行效率、结果质量和收敛速度方面都有较好的表现。
其他文献
面对日益复杂增长的电磁战场环境,立足于5G时代各个芯片公司推出的高度集成SoC(片上系统)芯片,本文对便携式宽带电子侦察信号处理技术及其工程化实现进行了探讨;提出了一种基
作为我国经济发展的支柱产业,房地产因其高收益一直受到投资市场的追捧,因此该市场所存在的竞争也异常激烈。如何合理有效的对房地产投资项目进行评估,如何选择效益最优的项
原油换热器管道多达八百多根,管道定位机械手安装在换热器壳体内部,负责在换热器正常工作的同时对全部管道进行逐一的定位及清洗。由于换热器内部充满高温高压高黏度的原油,
啁啾脉冲技术的发展使得超强超短激光成为可能,超短超强激光与等离子相互作用领域的理论和实验研究也取得了长足的发展,这些研究在新型粒子加速器和惯性约束核聚变等领域具有
近年来,随着科学技术的迅速发展,多智能体系统被广泛应用到军事、工业、航空航天等领域,受到了广大学者的关注,同时为我们的生活带来了极大的便利。其中,多智能体协同控制作
玻化微珠承重保温混凝土是一种综合承重、保温一体化的绿色建材,其不仅能够像普通混凝土一样,作为建筑物的结构承重构件,而且在浇筑成型后,还可以凭借自身的低导热系数,来满
视频问答是深度学习中重要的问题之一,被广泛应用于安防、广告系统中,提高视频问答的准确率具有非常重要的意义。近年来,理解视频的内容是在现实世界中开发各种有用应用程序
随着科学技术的水平的提高,GaN基LED因为其性能好,发光效率高,寿命长且节能环保等优点,正在逐步进入百姓的生活中,并成为不可缺少的一部分。由于荧光粉对LED器件的可靠性有不
目前,多智能体系统最常用的采样方式是周期采样,为进一步降低系统控制更新次数和能量消耗,提高资源利用率,因此,考虑将事件驱动机制作用于多智能体系统,当其满足特定的驱动条
嵌入式实时系统的复杂性、资源受限性、实时性和可靠性要求对系统设计人员提出了更多的挑战,各种安全性、可靠性指标无法完全通过测试来验证。模型驱动技术能够在一定程度上