论文部分内容阅读
分类是农业数据挖掘的一项重要任务,分类器设计是决定分类性能的关键因素。随着我国数字化农业的发展,农业呈现出多样化和区域化的趋势,导致农业数据具有高维、动态、非线性、非稳定性等特点,农业分类问题的复杂程度不断增加。尤其是在处理小规模和大规模农业数据集这两个特殊问题时,传统的方法所建立的模型不能全面、科学和本质的反应农业数据的复杂特性,造成了信息量的丢失和分类准确性的不足,严重制约着农业数据分类研究的发展和进步。因此,针对不同规模农业数据的特点,构造更高效合理、有针对性的分类器,实现对农业数据的准确分类,对农业数据挖掘研究具有积极地推动作用。本研究针对小规模和大规模农业数据的特点,在分析了传统方法经验与不足的基础上,提出基于神经网络分类器的设计与优化方法,重点解决农业数据分类中的三个关键问题数据预处理环节的变量筛选问题,小规模数据的分类问题,大规模数据的分类问题,提出将神经网络与群体智能算法、云计算相结合的方法,实现对不同规模农业数据集的分类,并通过对比实验验证了方法的正确性和有效性。本文研究的主要内容及取得的成果如下:(1)研究了基于MIV的神经网络变量筛选方法。通过计算数据集中每个属性对于神经网络分类准确度的平均贡献值MIV,选取数据集中对神经网络建模效果显著的属性作为网络的输入变量,达到变量筛选、冗余消除的效果,提高分类准确性。(2)针对样本数据量不足的情况,提出了小规模农业数据集的神经网络分类方法。研究将果蝇寻优算法与GRNN神经网络相结合,通过模拟果蝇的觅食行为,实现GRNN神经网络关键建模参数平滑因子的自适应确定,完成对GRNN神经网络的优化,达到提升小规模数据集分类准确度的目的。(3)针对大样本数据量的情况,提出了大规模农业数据集的神经网络分类方法。在对传统的BP-AdaBoost算法进行分析的基础上,结合云计算思想,给出了传统BP-AdaBoost算法的MapReduce并行化方法。将改进后的算法部署在Hadoop集群上,并通过三个对比实验,验证了该算法的可行性,它不仅能处理大规模数据集,而且降低了算法的时间复杂度,具有较好的加速比和准确性。(4)设计了面向农业数据的神经网络分类系统。在Matlab2012(a)平台下,编程实现了系统的主要功能,验证了本文所提出方法的正确性和有效性,取得了良好的效果。论文研究成果对于农业数据的分类理论和方法的深入研究,构造更精确、有效的农业数据分类器,对促进数字农业和精准农业发展,具有一定的研究价值和实际意义。