论文部分内容阅读
近红外光谱(Near-infrared spectrum,NIRs)分析技术具有速度快、效率高、无损无污染等突出特性,通常结合机器学习方法实现对NIRs检测的定性分析。然而,NIRs数据与测量环境、仪器、实验水平等密切相关,不同批次采集的样本具有显著差异且难以获取大量的定标样本,导致传统方法存在特征学习能力不足、训练困难等问题,其分类效果往往不佳。因此,探索更有效的NIRs分类方法是提升NIRs任务效益的关键。本课题将深度森林算法作为NIRs数据的分析方法,分别从特征集成学习、表示学习两个角度进行研究并构建鉴别模型,在柑橘黄龙病检测和药品精细分类任务上得到验证,提升了NIRs的分类性能。本文的主要研究工作如下:(1)以深度森林的特征集成思想为研究点,本文提出多特征融合的级联森林(Multi-Feature Fusional Cascade Forest,FCForest)算法。首先提取原始数据的有效特征,然后利用级联的集成决策树充分学习特征间的差异与互补信息,并自适应选择最优模型结构。结果表明,在柑橘黄龙病检测和药品鉴别两个不同的NIRs任务下,FCForest的预测准确性和模型稳定性明显优于其他主流算法,并大量减少原始深度森林方法的训练时间,因此是一种有效的近红外光谱鉴别方法。(2)以深度森林的特征分层表示思想为研究点,本文提出自适应特征的多层梯度提升决策树(Multi-Layered Gradient Boosting Decision Trees with Adaptive Feature,FGBDT)方法。通过加入自适应特征机制,大幅降低特征冗余及模型复杂度,并以目标传播的变体优化非可微模块,映射更好的数据特征空间分布。实验表明,FGBDT能够获取优秀的特征分布表示,且相比其他方法具有更高的准确性和鲁棒性。在此基础上引入代价敏感学习,在不均衡数据上表现出优秀的性能,因此是一种准确可靠的近红外光谱分类方法。