论文部分内容阅读
数据挖掘是一个多学科交叉融合的前沿学科,是信息技术发展过程中的重要成果之一,其理论研究和实际应用都已被广泛关注。关联规则挖掘是数据挖掘中的一项重要任务,用于发现大量数据中项集之间隐含的关联。近年来,随着互联网的迅速普及,数据库规模的不断扩大,关联规则挖掘变得越来越复杂,传统的关联规则挖掘算法已经不能满足当今知识发现的需要。学者们开始将多种算法应用到关联规则挖掘中来,其中演化算法是一种非常有效的方法,并已成为人们关注的焦点之一。基因表达式编程是一种新的演化算法模型,主要借鉴了生物进化中基因表达的方式。多表达式编程是遗传程序设计领域的一个新的扩展。近几年来,多表达式编程因其独特灵活的编码方式,已经被广泛应用在诸多领域,并取得了一定的成果。本文主要研究多表达式编程算法并将其应用于求解关联规则挖掘问题。首先,研究了基因表达式编程和多表达式编程的基本原理和实现技术;其次,详细分析了数据挖掘中经典关联规则挖掘算法的优缺点;最后,针对关联规则挖掘问题,改进了多表达式编程算法,使其能更好的解决关联规则挖掘问题。本文主要工作和创新点概括如下:(1)设计了多表达式编程算法的遗传算子和适应度函数。对数据挖掘中关联规则挖掘进行了深入研究、对传统关联规则挖掘算法进行了详细分析,结合关联规则挖掘问题、多表达式编程的编码方式、多表达式编程算法的优缺点,设计了适应度函数和几种不同的遗传算子。(2)改进了多表达式编程算法。为了更充分的利用算法的优点,更好的弥补其不足,提出了改进的多基因表达式编程算法、改进的多表达式编程算法、改进的多表达式编程与差分演化融合算法、改进的多表达式编程与模拟退火融合算法,并将这些算法应用于关联规则挖掘中。(3)对算法进行仿真实验。通过对实验结果分析,证明了算法在求解规则挖掘问题时具有可行性,并表现出了很多优势。