论文部分内容阅读
烟叶原料近红外光谱属于高维数据,具有重叠、非线性等特点,而且有些光谱区域的样品信息表现较弱,不能明显的显示样本的有效成分信息。在对光谱进行定性分析时,若采用全谱建模,则必然会带进一些噪音和干扰,从而影响模型提取光谱信息特征。因此,为解决这些问题,本文提出了对原始光谱进行有效筛选和降维优化处理的方法,以烟叶原料近红外光谱为中心,主要研究内容如下:1、从烟叶原料近红外光谱特征分析和空间变换入手,本文着重探讨了烟叶原料近红外光谱波长变量筛选、特征提取等内容,并介绍了深度学习的基本思想和实现过程,并对自编码网络、稀疏自编码网络和卷积神经网络的结构及算法推导进行针对性分析,为本文后续研究提供了理论支撑。2、通过对烟叶原料近红外光谱的分析可知,若对全光谱的几千个特征变量进行建模,计算量大,且易形成过拟合。本文提出利用竞争自适应加权算法CARS对烟叶原料近红外光谱的特征波长进行提取,结合偏最小二乘算法,并建立多个烟叶烟碱的校正模型,通过和不进行波段选择以及用无信息变量消除法进行波段选择建立模型进行对比。研究表明,通过CARS法建立的模型,仅用32个波长点就能反映全波段256个特征变量的全部信息,同时只需提取3个主成分,而全波段需要12个,减少了模型的计算复杂度,相比之下,CARS方法建立的模型对外部的验证能力较强,平均相对误差较小,减少了不必要的噪声,以及各个波长点之间的多元共线性,提高了模型的精度,与PLS结合后建立的模型预测能力更强,稳健性更好,验证了CARS方法在烟叶原料近红外光谱特征波长优选中的可行性和抗干扰能力。3、不同于以往的特征提取降维方法,本文提出利用深度学习算法对烟叶原料近红外光谱进行特征提取,构建了一种稀疏自动编码网络和卷积神经网络融合的SAECNN特征提取算法。通过SAE预训练网络,优化CNN结构和内部参数,并与PCA算法和ISOMAP算法进行特征提取的可视化对比分析。研究表明,构建的SAECNN方法在三个烟叶产地识别中达到的最高正确率和平均正确率分别为95.47%和95.13%,明显高于PCA算法的94.87%和94.22%,ISOMAP算法的94.28%和94.04%,验证了SAECNN方法应用于烟叶原料近红外光谱特征提取上的可行性和有效性,同时,也为近红外光谱分析提供了一种新的途径。4、最后,总结本文所做工作,并指出不足和待改进的地方,探讨下一步的工作方向。