论文部分内容阅读
植物分类学是一门研究植物界不同物种的起源、亲缘关系、以及进化发展的基础学科。随着模式识别技术的快速发展,植物图像识别技术在植物分类学中起到了重要的辅助作用,给科研生产带来了极大的便利。传统的基于植物图像分类技术在提取完图像的多种特征后,往往都是采用基于单样本的分类器进行分类识别。由于同类植物在不同环境﹑时间﹑温度等状态下的特征表现也不相同,即使同株植物其叶﹑花等特征也会有较大差异,因此基于单张图像的分类技术将有很大的局限性。在数字采集设备十分普及的今天,人们已经可以很容易的获取大量植物图像样本,每一类物种的大量图像组成一个图像集。由于每类图像集包含了此类植物的多种变化模式,因此能够更有效的表示一类植物个体。与传统的基于单样本的植物图像识别算法相比,基于植物图像集的识别算法具有更好的鲁棒性与性能。本文首先在对植物图像进行预处理之后,提取了多种图像特征,在特征空间下对图像集进行两种建模。第一种把图像集建模成非线性的流形,并在流形间距离的计算框架下,提出一种基于流形间距离的植物图像集分类算法。该算法首先使用层次聚类算法把流形建模为多线性子空间模型,然后使用主夹角度量线性模型对间的相似度,最后通过多种加权方式得到流形间的距离。通过在植物叶片图像集上的实验,对比了多种主夹角定义方式及加权方式在植物图像集分类上的效果,并验证了此方法在识别植物图像集时具有很好的识别效果。第二种,把图像集建模成凸包,并提出了一种基于自适应多凸包的图像集分类算法。解决了单凸包对于非凸数据的不合理建模,以及分类时只使用了少量的边界信息,容易受到噪声图像干扰等缺点。首先使用谱聚类对测试集建模为多凸包模型,然后利用自适应参照聚类排除噪声的影响,最后把问题转换为多凸包的距离计算问题。从实验中可以看出,这种方法比单凸包识别算法的性能更好,并且能有效的降低噪声样本的影响,达到了很好的识别效果。