论文部分内容阅读
作为现代农业的重要组成部分,植物鉴别在植物分类学、精细农业和园艺学、中医药研究等人们生产生活密切相关的各个领域具有重要的应用价值。叶片作为一种扁平的二维结构植物器官,叶片外形、叶缘和纹理等特征具有明显的形态差异,是植物物种鉴别和形态区分的重要指标,而准确高效的图像特征提取方法和分类识别算法是解决植物叶片分类问题的关键所在。近年来,有关植物叶片的特征选择及分类识别算法无论从理论上还是应用研究方面都取得了一定的进展,然而相关算法中对识别特征高度相似的叶片图像研究不多,而随着图像获取技术的不断提升,捕获的植物叶子图像分辨率更高、维度更多,高维叶片图像的特征提取以及分类识别器的设计逐渐成为叶片图像分类识别中的亟待解决的新难题。本文以叶片图像特征提取和分类器的设计为突破口,围绕高维图像的降维算法、模糊半监督聚类算法设计、叶片分类识别应用等关键问题,研究新的数据降维算法、聚类算法的参数优化算法以及特征加权的半监督聚类算法,在此基础上构建出植物叶片图像的识别框架,并用UCI数据集和实测数据集进行试验。论文主要研究工作和结论如下:(1)提出一种改进型的PCA降维算法L-PCA,有效降低了特征维度,提高了分类识别率。借鉴经典凸技术聚类算法中的全局线性降维算法PCA(Principal Component Analysis)与LDA(Linear Discriminant Analysis)聚类算法思想,提出一种改进型的PCA降维算法L-PCA,该算法在保证原有样本协方差结构不变的前提下,获取变换矩阵中最重要的主分量进行赋权,通过调节类内与类间离散矩阵,使得类内距离最小化、类间聚类最大化,来搜索一个合适的映射子空间来实现不同类别数据之间的划分。人工数据集和自测数据集下实验结果表明,L-PCA算法的一阶最近近邻分类器平均泛化误差为11.94%,其平均降维准确性为94.50%,目标数据表达连续性能达到0.97。(2)改进了传统FCM算法,提出一种基于模糊分离度的FCM聚类模糊加权指数优选算法EOSD。对传统的FCM算法进行了改造,提出了一种基于模糊分离度的FCM聚类模糊加权指数优选算法EOSD,在模糊划分指数和分离指数两种模糊评价函数的基础上构造出模糊分离度,并通过观测实际样本数据和人造样本数据下的模糊分离度曲线拐点进行最优加权指数的选取,并通过目标函数的拐点法对实验结果进行验证。实验也证明了EOSD优选算法能够有效进行最优加权指数的选取,m的取值介于1.8-2.2之间,而FCM族算法最优值为2。(3)为了设计一种合理的分类器算法,提出一种新型模糊半监督加权聚类算法。本文引入成对约束,采用聚类和特征加权同步进行的思想,将特征加权融合到聚类过程中,进一步提高了聚类算法的类识别能力,通过对用户提供的模式特征边信息进行选择和鉴别,并经过一套有效的特征加权流程获取整个输入模式的特征权值集合,同时使用该特征权值对目标函数进行修正,并通过准确率和NMI评价方法对SFFD算法进行全面评价。8种UCI数据集下的聚类结果表明,特征加权的模糊半监督聚类算法SFFD能够有效的解决常见的聚类问题,在8个数据集上的性能均优于其余算法的平均值约7.74%,其权值能够提高算法的2.00%至7.00%的分类准确率。(4)为了有效解决聚类算法中最佳聚类数的确定问题,分析权值因子在聚类划分过程中的作用,使用不同评价算法评估了SFFD算法的有效性,并对其聚类过程中划分矩阵的权值变化曲线进行监控。本文在SFFD聚类算法的基础上,首先采用PC、CE、SC、XB等4种聚类结果评价算法对相应的聚类结果展开评价,最终通过不同聚类评价结果的对比分析获取不同数据集下的最佳聚类数;其次,采用标签数据和先验知识等已知信息生成成对约束信息指导半监督聚类过程,使用UCI数据集和Leaf自测集作为样本信息进行聚类分析,通过获取聚类过程中输入特征向量的权值v的变化曲线分析特征权值对聚类性能和分割结果的影响。选择合适的聚类评价算法能够将误差控制在2以内,从而有效的解决最佳聚类数的预设问题,而特征权值在20个聚类周期内将划分矩阵的权值进行明确划分,因此,有效提升聚类算法各项性能的最简单快捷的方法便是特征赋权。(5)采用特征加权模糊半监督聚类算法SFFD算法作为分类识别器,构建植物叶片图像识别框架。通过实地采集相似度较高的叶片数字图像并提取多种识别特征作为输入数据集,使用SFFD分类器的特征加权过程极大的提高了聚类速度并有效的增强了算法的分类质量,10类植物叶片的识别实验结果表明,该算法省略了样本训练环节,每种识别特征在30%的监督信息指导下即可获得72.40%至86.46%的识别准确率,其单一特征平均识别率为82.92%。另外,在相同的预处理算法及相同的标签数据数量下,叶缘特征和复合特征是叶片图像分类过程中的最佳分类特征,其次是形状特征。综上所述,为了解决实际中叶片图像的分类问题,融合了降维思想、参数优化方法、半监督聚类算法、聚类评价及应用分析等研究内容,提出了解决问题的几种关键算法。这些新算法均取得了较好的应用效果。通过实验分析得出:叶片分类识别算法的成功与否主要取决于分类识别器和特征提取算法,其中,恰当的半监督信息能够有效的提高识别准确率和分类性能,而合理的降维算法可以大大降低特征提取的计算复杂度。