论文部分内容阅读
海量数据时代,人们对于能够自动地、智能地把数据转化为有用知识的技术有着迫切的需求,这种需求促进了数据挖掘技术的快速发展。数据分类是数据挖掘的一项重要任务,它可以用来挖掘重要数据类的模型以及预测数据的未来趋势。数据分类在人工智能、网络金融、模式识别、机器学习等领域已经展开了广泛的研究,并产生了众多的分类建模算法。虽然数据分类在理论和技术方面己经取得一定的突破,但它仍然存在一些问题,主要包括:分类建模算法的准确性和有效性、分类规则的可理解性等。传统分类建模算法在预测精度、可扩展性、高效性等方面都面临着巨大的挑战。由于数据分类是通过训练集合来构建分类模型,即通过分类算法寻找出最能代表训练数据的分类规则集合,这是一个逐步寻优的过程,因此许多研究者将群体智能算法应用于分类学习模型构建并取得了一些成果。群体智能算法是模拟自然界中种群通过个体之间的相互协作去解决一个复杂问题的过程,该算法具有潜在的并行性和较强的鲁棒性,而且算法不依赖于具体问题。基于群体智能算法的分类学习模型构建已经成为近年来数据挖掘领域的研究热点。本论文将群体智能算法中比较有代表性的蚁群算法和基因表达式编程算法(Gene Expression Programming,GEP)引入数据分类挖掘中,主要对基于传统蚁群分类算法和基本GEP的分类学习模型构建问题进行了研究,分别从不同的角度对这两种算法进行了改进,提出了新型蚁群分类建模算法Ant-MinerPAE和改进的基因表达式编程算法IGEP,并通过多组实验验证了该改进算法在分类学习模型构建上的有效性。本论文的主要研究工作如下:(1)介绍了数据分类问题的定义、原理及实现方法,分析了常见分类建模算法的不足之处,然后研究了蚁群算法的思想来源和核心步骤,深入研究了传统的蚁群分类算法Ant-Miner,并追踪了蚁群分类算法的发展历程。为了避免算法过早收敛陷入局部最优解,提出了一种基于信息素吸引与排斥原则改进的蚁群算法,设计了新的信息素计算方法及概率转移公式,调整了算法迭代的次序,蚂蚁在搜索过程中的信息素既包含吸引部分,又包含排斥部分,该方法可以平衡蚂蚁在构建模型过程中的探索与开发的关系,使得蚂蚁在搜索过程初期倾向于探索,在搜索过程后期倾向于开发。(2)为了证明本论文改进蚁群算法的有效性,将该算法应用于分类问题建模,同时在考虑规则之间相互影响的基础上,提出了一种新型蚁群分类建模算法Ant-MinerPAE,然后利用UCI的12组公共数据集进行了分类实验,将实验结果和其他常见的一些分类挖掘算法如CN2、C4.5rules、PSO/ACO2、Ant-Miner、cAnt-MinerPB等进行了比较。实验结果表明,该算法在预测精度和规则简洁性方面具有一定的优势。(3)深入研究了GEP的思想及基本GEP的缺点,针对基本GEP进行建模时容易受到噪声干扰,导致过早收敛,陷入局部极值等问题,本论文提出了一种改进的GEP算法(IGEP),增加了“基因提取”、“基因翻转”和“基因动态调整”算子,该改进算法可以提高基因的有效利用率,增强进化过程的种群多样性,从而具有更高的收敛速度和求解精度,且能更好地避免早熟现象。(4)为了证明IGEP算法的优势,将IGEP算法用于2015年5月11日至2015年8月5日的全国白萝卜、大葱、冬瓜、茄子、青椒、土豆等蔬菜价格的建模及预测,结合时间序列方法,通过对训练数据进行分析和进化,创建数学模型,实现蔬菜价格的仿真与预测;该实验同时实现了线性回归、抛物线回归和基本GEP算法的仿真与预测,通过多组实验对比证明IGEP算法在蔬菜价格建模及预测上具有更快的收敛速度和更高的精度。(5)基于IGEP算法提出了均衡概率选择和超级函数的策略,使得种群初始化时终结符和函数符被选机会均等,不同目数的函数符被选概率相同,变异算子中的字符与函数的选择概率相等,该策略能够保证种群的多样性,同时超级函数的设置可以使进化跳出局部最优并搜索到更好的解。然后,将改进的GEP算法用于构建分类学习模型,针对乳腺癌、气球、信用卡三个二元分类问题和葡萄酒识别、鸢尾花分类等两个三元分类问题,通过该改进算法进行多组实验,并分别与基本的GEP分类算法及其他分类算法进行对比,结果表明,改进的GEP分类算法在分类预测准确率上有着明显的提升。