论文部分内容阅读
杂交水稻优化算法(Hybrid Rice Optimization Algorithm,HRO)是一种受三系杂交水稻(hybrid rice)的育种方式启发,经过一系列的研究,进而提出的一种新的启发式进化计算的群智能优化算法。即保持系,恢复系以及不育系。通过保持系与不育系的杂交生成新的杂交水稻个体。恢复系通过自交保持良好的属性。杂交过程是一个演化过程,自交过程是群体搜索的过程。这两个过程相互影响,并以适当比例组合。该算法参数较少,原理易理解,容易实现。与其他的算法相比稳定性好,寻优能力强,计算复杂度低,计算速度快,适用于多种优化问题。然而,随着互联网信息技术的飞速发展,直接或者间接产生的信息数据也在呈指数级增长,这对传统的数据挖掘算法提出了新的挑战。在这样的情况之下,大数据云计算的概念也应运而生,研究人员将传统数据挖掘算法与新兴技术相融合,利用分布式计算的思想与力量来对算法进行合理优化,使算法的综合性能有了显著改进。其中Hadoop计算框架成为大数据处理的主要框架平台。本文在前人的工作及经验基础之上,设计并实现了一种基于Hadoop的分布式杂交水稻算法,旨在解决在大规模数据量时如何提升HRO算法性能的问题。通过对SVM的核函数核参数进行优化,进一步的验证基于Hadoop的分布式杂交水稻算法在参数优化上也有较好的效果。本文的主要工作如下:1.通过研究学习杂交水稻优化算法的算法模型、实现原理等理论知识,结合查阅大量的关于分布式群智能优化算法解决方案的国内外文献资料,设计并实现了基于Hadoop的分布式杂交水稻算法,提出了两种分布式方案,通过实验验证选择了其中较优的解决方案对算法进行深入的研究。通过设置种群规模的大小分别对基于Hadoop的分布式杂交水稻算法和单机版杂交水稻算法进行比对实验,通过增加Hadoop集群中HadoopNode数量分别对上述两种算法进行比对实验。实验结果表明在其它条件一定的情况下,当种群规模增大时,基于Hadoop的分布式杂交水稻算法比单机杂交水稻算法性能更好,并且随着Hadoop集群节点数量的增加,其优势越来越明显。2.论文研究了优化SVM参数的问题,使用基于Hadoop的分布式杂交水稻算法优化SVM参数的方法。由于杂交水稻优化算法、GA、PSO、ACO等较为成熟的群智能优化算法都是概率算法,所以,在设计实验时,用经过大量实验得出的平均值进行比对,这样更能说明问题。在优化SVM参数时,通过杂交水稻种群数量的变化对基于Hadoop的分布式杂交水稻算法优化SVM和传统串行杂交水稻算法优化SVM在运行时间和分类精度上进行实验比对,实验结果表明,随着种群数量的增加,基于Hadoop的分布式杂交水稻算法优化SVM在分类精度上基本与传统串行杂交水稻算法优化SVM持平,但在运行时间上明显优于传统串行HRO-SVM。