论文部分内容阅读
摘 要:本文基于可见—近红外高光谱(Visible Near Infrared Reflectio,Vis-NIR)成像技术对150个香水梨进行光谱数据采集。将样本划分后,采用卷积平滑(Savitzky-Golay,S-G)、归一化(Normalize)和标准正态变换(Standard Normal Variate,SNV)3种方法对原始光谱进行预处理,利用竞争性自适应加权算法(Competitive Adaptive Reweighted Sampling,CARs)、区间变量迭代空间收缩法(Interval Variable Iterative Space Shrinkage Approach,iVISSA)和变量组合集群分析(Variable Combination Population Analysis,VCPA)对特征波长提取进行波段缩减和特征提取,建立特征波段下香水梨硬度的偏最小二乘(Partial Least Squares Regression,PLSR)预测模型,优选最佳模型。结果表明,VCPA法建立的PLSR模型优于初始模型R2=0.933。
关键词:香水梨;高光谱;硬度;无损检测
香水梨又名软儿梨,属于秋子梨的一个品种,主要分布于甘肃、宁夏境内。在宁夏海原地区,香水梨是当地农民的主要收入来源,近年来种植面积不断扩大,然而目前仍存在很多技术上的问题需要解决[1]。硬度作为梨果的一个重要参数,与香水梨的成熟度,口感,食用性息息相关[2],传统的检测方法具有明显的破坏性,不适用于大规模量产的地区,因此利用光谱学技术建立一种香水梨的硬度检测方法显得尤为重要。高光谱技术作为一种高效、快速、无损的检测技术[3],目前已广泛应用于水果内部指标的检测[4-7]。因此,结合当地需求,本文通过对光谱数据进行4种预处理方法,3种特征波长的提取方法处理后,选择一种最优模型来预测香水梨硬度。
1 材料与方法
1.1 样品采集
实验样品全部来自于宁夏回族自治区海原县方堡村,样品自采摘后于24 h内运输至宁夏大学,在宁夏大学冷库内进行保存,贮藏温度0~2 ℃。样品测试前需将样品从冷库取出,放置在20 ℃恒温条件下24 h,待样品中心温度恢复至20 ℃开始检测。
1.2 数据采集
①光谱采集仪器。Hyper Spec VIS/NIR高光谱成像系统,光谱范围为400~1 000 nm和125波段的超高光谱影像可见/近红外光谱仪系统。包括v10e-qe高光谱影像光谱仪、C8484-05G-CCD-相机、90-254vac线性光源、Dcrih卤素灯、传输装置、计算机和数据采集软件。②硬度检测。硬度计HLY-YD5。③数据处理软件。ENVI5.3,The Unscrambler X 10.4,MATLAB R2014a。以上软、硬件由宁夏大学提供。
2 结果与分析
2.1 PLSR初模型的建立及评价方法
偏最小二乘回归(PLSR)是一种多元回归方法,用于建立分析样品光谱响应与参考值之间的验证模型。相对于其他模型直接考虑因变量和自变量而建立回归模型的方法,PLSR则是重新过滤信息,选择最佳变量,再对筛选出的变量进行建模。因此,其筛选出的光谱值决定了建模成功率的高低。一般来说,评价PLSR模型成功率的指标有3个:预测样本集的标准差(RMSEP)、校正集的均方根误差(RMSEC)、决定系数(R2)。一般情况下,R2值越大,RMSEP和RMSEC越小,表明模型的预测能力越强[8]。
使用ENVI5.3提取香水梨样本的感兴趣区域(Region Of Interesting,ROI)[9]感兴趣区域必需具有一定的代表性,可以代表香水梨样品的硬度指标。为了获得具有代表性的光谱值,在选取ROI时要尽量避免过于灰暗的部分,选择香水梨整体光量部分,记录每个样本ROI的平均光谱。
将每个样品提取出的光谱值和硬度数据导入至The Unscrambler X 10.4,选择PLSR进行初步的模型建立。初始模型效果如图1所示。
由图1可知,样品初始模型效果不佳,数据点不连续,R2值为0.782。因此,需要对光谱进行处理后,达到降噪均匀优化光谱的目的,再进行PLSR预测模型。
2.2 光谱预处理
采集到的光谱图像由于光源强度不均匀及噪音等因素的影响,可能在某种程度上会存在基线漂移等现象,为了提取出有效的光谱信号,消除光源强度不均匀的问题,需要对原始光谱数据进行预处理,为后续的光谱数据处理提供更加具有代表性的光谱区域[10]。本文采用以下几种方法进行预处理。
2.2.1 卷积平滑法。
卷积平滑(Savitzky-Golay ,S-G)是一种对光谱进行平滑处理的方式,主要包括移动平均法、高斯滤波法、中值滤波法和S-G卷积平滑法[11]。
2.2.2 归一化法
归一化(Normaliaze)是一种行式转换算法,适用于光谱信号与样品函数关系的分析,或者利用其他光谱值代替样品检测值的方法。通过计算机变换,最终使光谱数据在同一范围内,变量和均值的分布更加均匀[12]。
2.2.3 标准正态变换法
标准正态变换(Standard Normal Variate,SNV)是一种通过样品的方差对光谱进行校正的方法,SNV可以有效的消除光源强度不一、散射噪聲等检测时出现的干扰,通过线性变换对初始光谱数据标准化进行校正,减小样本因为表面散射、光谱迁移等因素带来的误差[13]。
经过上述预处理后模型结果如表1所示,归一化法拥有较小的CV值和较大的R2值,表明其对结果的预测效果较好,因此后续的特征光谱提取均采用归一化法作为光谱的预处理方法。 2.3 特征波長的提取
2.3.1 竞争性自适应加权算法
竞争性自适应加权算法(CARs)是模仿“适者生存”理论而提出的特征变量选择算法。CARs算法的核心是首先采用自适应重加权采样技术,优选出PLSR模型中绝对值大的回归系数所对应的波长变量点,然后借助指数衰减函数,最后将RMSECV最小的子集定义为最优变量子集[14]。
使用Matlab运行CARs程序多次后,选择CV值最小的波长组作为特征波长,一共12条,将12条特征波长导入Unscrambler后建模得到模型如图2所示,其RMSEC值为0.659,R2为0.764。
2.3.2 区间变量迭代空间收缩法
区间变量迭代空间收缩法(iVISSA)的主旨思想是选择最优区间,然后根据最优选区间再进行建模,该算法来自于VISSA算法,之后结合全局和局部搜索,智能地优化波长的宽度、组合及间隔[15]。在局部搜索上,iVISSA算法使用光谱数据的连续性信息来确定波长间隔的宽度,在全局搜索上,主要搜索信息波长的组合和位置。最终用迭代的方式优化光谱间的数据间隔,确定光谱的组合、位置以及宽度[16]。
使用Matlab运行iVISSA程序多次后,选择CV值最小的波长组作为特征波长,一共66条,将66条特征波长导入Unscrambler后建模得到模型如图3所示,其RMSEC值为0.666,R2为0.760。
2.3.3 变量组合集群分析法
变量组合集群分析(VCPA)是一种新兴的特征变量识别算法,该方法的特点是充分考虑了变量集之间可能存在的影响。方法的计算原理是,首先通过利用二进制矩阵采样法对样本空间进行重采样,之后将数据随机划分为若干子集,针对子集分别建立子模型,最后对子模型一一进行评价[17]。一般情况下,VCPA算法计算过程如下:①先利用二进制矩阵采样法,对样本变量进行采样,选取目标函数CV值最小的变量子集;②计算每个波长点对应的化学值或者实测值,在本次迭代计算过程中出现的概率;③通过衰减函数筛选出概率较小的波长范围或者波长点,达到缩小变量集空间的目的;④最后将保留的变量重复上述过程将剩余变量进行组合,最终得到特征波长变量[17-19]。
使用Matlab运行VCPA程序多次后,选择CV值最小的波长组作为特征波长,共10条,将10条特征波长导入Unscrambler后建模得到模型如图4所示,其RMSEC值为0.351,R2为0.933。
3 结论
对香水梨硬度原始光谱进行了3种预处理后,选择归一化法为最佳方法,以此作为基础光谱,对比3个特征波长建模后的PLSR模型效果,最终选择VCPA法,其提取特征波长10个,建立的PLSR模型优于初始模型,R2=0.933,可以用作一种快速检测香水梨硬度的方法。
参考文献
[1]徐璐娜,刘缗,庞婷婷.海原香水梨生长气象条件分析[J].南方农业,2020,14(30):182-183.
[2]王晓明,章海亮,罗微,等.近红外光谱检测梨果硬度研究[J].中国农机化学报, 2015,36(6):120-123.
[3]张珮,王银红,江靖,等.便携式近红外光谱仪在果蔬品质定性和定量分析中的应用[J].食品科技,2020,45(5):
287-292.
[4]黎源鸿,王红军,邓建猛,等.基于PCA-ELM和光谱技术预测香蕉成熟度[J].现代食品科技,2017,33(10):268-274.
[5]李梦珠.基于高光谱技术的水果品质无损检测研究[D].西安:西安电子科技大学,2019.
[6]岳林珊.基于图像处理技术的冷冻冷藏果蔬品质研究[D].天津:天津商业大学,2019.
[7]张保华.基于机器视觉和光谱成像技术的苹果外部品质检测方法研究[D].上海:上海交通大学,2016.
[8]TAGHIZADEH M,GOWEN A,DONNELL C P O.Prediction of white button mushroom(Agaricus bisporus)moisture content using hyperspectral imaging[J].Sensing and Instrumentation for Food Quality and Safet,2009,3(4):219-226.
[9]程琳琳,陈昭炯,傅明建.基于感兴趣区域的色彩传递算法[J].计算机应用与软件,2019,36(2):39-43.
[10]VIDAL M,AMIGO J M.Pre-processing of hyperspectral images.Essential steps before image analysis[J].Chemometrics and Intelligent Laboratory Systems,2012,117:138-148.
[11]成军虎.基于高光谱成像鱼肉新鲜度无损快速检测方法研究[D].广州:华南理工大学,2016.
[12]郭志明.利用近红外光谱分析技术检测绿茶有效成分的研究[D].镇江:江苏大学,2009.
[13]ZHAO N,WU Z S,CHENG Y Q,et al.MDL and RMSEP assessment of spectral pretreatments by adding different noises in calibration/validation datasets[J].Spectrochimica acta.Part A,Molecular and biomolecular spectroscopy,2016,163:20-27. [14]YAN H,SONG X Z,TIAN K D,et al.A modification of the bootstrapping soft shrinkage approach for spectral variable selection in the issue of over-fitting,model accuracy and variable selection credibility[J].Spectrochimica Acta Part A:Molecular and Biomolecular Spectroscopy,2019,210:362-371.
[15]DENG B C,YUN Y H,LIANG Y Z L,et al.A novel
variable selection approach that iteratively optimizes variable space using weighted binary matrix sampling[J].The Analyst,2014,139(19):4836-4845.
[16]DENG B C,YUN Y H,MA P,et al.A new method for
wavelength interval selection that intelligently optimizes the locations,widths and combinations of the intervals[J].The Analyst,2015,140(6):1876-1885.
[17]YUN Y H,WANG W T,DENG B C,et al.Using variable combination population analysis for variable selection in multivariate calibration[J].Analytica Chimica Acta,2015,862:14-23.
[18]宋雨宸,宦克為,韩雪艳,等.基于蒙特卡洛变量组合集群分析法的小麦蛋白质近红外光谱变量选择[J].长春理工大学学报(自然科学版),2017,40(5):29-35.
[19]杨东,陆安祥,王纪华.高光谱成像技术定量可视化检测熟牛肉中挥发性盐基氮的含量[J].现代食品科技,2017,33(9):257-264.
关键词:香水梨;高光谱;硬度;无损检测
香水梨又名软儿梨,属于秋子梨的一个品种,主要分布于甘肃、宁夏境内。在宁夏海原地区,香水梨是当地农民的主要收入来源,近年来种植面积不断扩大,然而目前仍存在很多技术上的问题需要解决[1]。硬度作为梨果的一个重要参数,与香水梨的成熟度,口感,食用性息息相关[2],传统的检测方法具有明显的破坏性,不适用于大规模量产的地区,因此利用光谱学技术建立一种香水梨的硬度检测方法显得尤为重要。高光谱技术作为一种高效、快速、无损的检测技术[3],目前已广泛应用于水果内部指标的检测[4-7]。因此,结合当地需求,本文通过对光谱数据进行4种预处理方法,3种特征波长的提取方法处理后,选择一种最优模型来预测香水梨硬度。
1 材料与方法
1.1 样品采集
实验样品全部来自于宁夏回族自治区海原县方堡村,样品自采摘后于24 h内运输至宁夏大学,在宁夏大学冷库内进行保存,贮藏温度0~2 ℃。样品测试前需将样品从冷库取出,放置在20 ℃恒温条件下24 h,待样品中心温度恢复至20 ℃开始检测。
1.2 数据采集
①光谱采集仪器。Hyper Spec VIS/NIR高光谱成像系统,光谱范围为400~1 000 nm和125波段的超高光谱影像可见/近红外光谱仪系统。包括v10e-qe高光谱影像光谱仪、C8484-05G-CCD-相机、90-254vac线性光源、Dcrih卤素灯、传输装置、计算机和数据采集软件。②硬度检测。硬度计HLY-YD5。③数据处理软件。ENVI5.3,The Unscrambler X 10.4,MATLAB R2014a。以上软、硬件由宁夏大学提供。
2 结果与分析
2.1 PLSR初模型的建立及评价方法
偏最小二乘回归(PLSR)是一种多元回归方法,用于建立分析样品光谱响应与参考值之间的验证模型。相对于其他模型直接考虑因变量和自变量而建立回归模型的方法,PLSR则是重新过滤信息,选择最佳变量,再对筛选出的变量进行建模。因此,其筛选出的光谱值决定了建模成功率的高低。一般来说,评价PLSR模型成功率的指标有3个:预测样本集的标准差(RMSEP)、校正集的均方根误差(RMSEC)、决定系数(R2)。一般情况下,R2值越大,RMSEP和RMSEC越小,表明模型的预测能力越强[8]。
使用ENVI5.3提取香水梨样本的感兴趣区域(Region Of Interesting,ROI)[9]感兴趣区域必需具有一定的代表性,可以代表香水梨样品的硬度指标。为了获得具有代表性的光谱值,在选取ROI时要尽量避免过于灰暗的部分,选择香水梨整体光量部分,记录每个样本ROI的平均光谱。
将每个样品提取出的光谱值和硬度数据导入至The Unscrambler X 10.4,选择PLSR进行初步的模型建立。初始模型效果如图1所示。
由图1可知,样品初始模型效果不佳,数据点不连续,R2值为0.782。因此,需要对光谱进行处理后,达到降噪均匀优化光谱的目的,再进行PLSR预测模型。
2.2 光谱预处理
采集到的光谱图像由于光源强度不均匀及噪音等因素的影响,可能在某种程度上会存在基线漂移等现象,为了提取出有效的光谱信号,消除光源强度不均匀的问题,需要对原始光谱数据进行预处理,为后续的光谱数据处理提供更加具有代表性的光谱区域[10]。本文采用以下几种方法进行预处理。
2.2.1 卷积平滑法。
卷积平滑(Savitzky-Golay ,S-G)是一种对光谱进行平滑处理的方式,主要包括移动平均法、高斯滤波法、中值滤波法和S-G卷积平滑法[11]。
2.2.2 归一化法
归一化(Normaliaze)是一种行式转换算法,适用于光谱信号与样品函数关系的分析,或者利用其他光谱值代替样品检测值的方法。通过计算机变换,最终使光谱数据在同一范围内,变量和均值的分布更加均匀[12]。
2.2.3 标准正态变换法
标准正态变换(Standard Normal Variate,SNV)是一种通过样品的方差对光谱进行校正的方法,SNV可以有效的消除光源强度不一、散射噪聲等检测时出现的干扰,通过线性变换对初始光谱数据标准化进行校正,减小样本因为表面散射、光谱迁移等因素带来的误差[13]。
经过上述预处理后模型结果如表1所示,归一化法拥有较小的CV值和较大的R2值,表明其对结果的预测效果较好,因此后续的特征光谱提取均采用归一化法作为光谱的预处理方法。 2.3 特征波長的提取
2.3.1 竞争性自适应加权算法
竞争性自适应加权算法(CARs)是模仿“适者生存”理论而提出的特征变量选择算法。CARs算法的核心是首先采用自适应重加权采样技术,优选出PLSR模型中绝对值大的回归系数所对应的波长变量点,然后借助指数衰减函数,最后将RMSECV最小的子集定义为最优变量子集[14]。
使用Matlab运行CARs程序多次后,选择CV值最小的波长组作为特征波长,一共12条,将12条特征波长导入Unscrambler后建模得到模型如图2所示,其RMSEC值为0.659,R2为0.764。
2.3.2 区间变量迭代空间收缩法
区间变量迭代空间收缩法(iVISSA)的主旨思想是选择最优区间,然后根据最优选区间再进行建模,该算法来自于VISSA算法,之后结合全局和局部搜索,智能地优化波长的宽度、组合及间隔[15]。在局部搜索上,iVISSA算法使用光谱数据的连续性信息来确定波长间隔的宽度,在全局搜索上,主要搜索信息波长的组合和位置。最终用迭代的方式优化光谱间的数据间隔,确定光谱的组合、位置以及宽度[16]。
使用Matlab运行iVISSA程序多次后,选择CV值最小的波长组作为特征波长,一共66条,将66条特征波长导入Unscrambler后建模得到模型如图3所示,其RMSEC值为0.666,R2为0.760。
2.3.3 变量组合集群分析法
变量组合集群分析(VCPA)是一种新兴的特征变量识别算法,该方法的特点是充分考虑了变量集之间可能存在的影响。方法的计算原理是,首先通过利用二进制矩阵采样法对样本空间进行重采样,之后将数据随机划分为若干子集,针对子集分别建立子模型,最后对子模型一一进行评价[17]。一般情况下,VCPA算法计算过程如下:①先利用二进制矩阵采样法,对样本变量进行采样,选取目标函数CV值最小的变量子集;②计算每个波长点对应的化学值或者实测值,在本次迭代计算过程中出现的概率;③通过衰减函数筛选出概率较小的波长范围或者波长点,达到缩小变量集空间的目的;④最后将保留的变量重复上述过程将剩余变量进行组合,最终得到特征波长变量[17-19]。
使用Matlab运行VCPA程序多次后,选择CV值最小的波长组作为特征波长,共10条,将10条特征波长导入Unscrambler后建模得到模型如图4所示,其RMSEC值为0.351,R2为0.933。
3 结论
对香水梨硬度原始光谱进行了3种预处理后,选择归一化法为最佳方法,以此作为基础光谱,对比3个特征波长建模后的PLSR模型效果,最终选择VCPA法,其提取特征波长10个,建立的PLSR模型优于初始模型,R2=0.933,可以用作一种快速检测香水梨硬度的方法。
参考文献
[1]徐璐娜,刘缗,庞婷婷.海原香水梨生长气象条件分析[J].南方农业,2020,14(30):182-183.
[2]王晓明,章海亮,罗微,等.近红外光谱检测梨果硬度研究[J].中国农机化学报, 2015,36(6):120-123.
[3]张珮,王银红,江靖,等.便携式近红外光谱仪在果蔬品质定性和定量分析中的应用[J].食品科技,2020,45(5):
287-292.
[4]黎源鸿,王红军,邓建猛,等.基于PCA-ELM和光谱技术预测香蕉成熟度[J].现代食品科技,2017,33(10):268-274.
[5]李梦珠.基于高光谱技术的水果品质无损检测研究[D].西安:西安电子科技大学,2019.
[6]岳林珊.基于图像处理技术的冷冻冷藏果蔬品质研究[D].天津:天津商业大学,2019.
[7]张保华.基于机器视觉和光谱成像技术的苹果外部品质检测方法研究[D].上海:上海交通大学,2016.
[8]TAGHIZADEH M,GOWEN A,DONNELL C P O.Prediction of white button mushroom(Agaricus bisporus)moisture content using hyperspectral imaging[J].Sensing and Instrumentation for Food Quality and Safet,2009,3(4):219-226.
[9]程琳琳,陈昭炯,傅明建.基于感兴趣区域的色彩传递算法[J].计算机应用与软件,2019,36(2):39-43.
[10]VIDAL M,AMIGO J M.Pre-processing of hyperspectral images.Essential steps before image analysis[J].Chemometrics and Intelligent Laboratory Systems,2012,117:138-148.
[11]成军虎.基于高光谱成像鱼肉新鲜度无损快速检测方法研究[D].广州:华南理工大学,2016.
[12]郭志明.利用近红外光谱分析技术检测绿茶有效成分的研究[D].镇江:江苏大学,2009.
[13]ZHAO N,WU Z S,CHENG Y Q,et al.MDL and RMSEP assessment of spectral pretreatments by adding different noises in calibration/validation datasets[J].Spectrochimica acta.Part A,Molecular and biomolecular spectroscopy,2016,163:20-27. [14]YAN H,SONG X Z,TIAN K D,et al.A modification of the bootstrapping soft shrinkage approach for spectral variable selection in the issue of over-fitting,model accuracy and variable selection credibility[J].Spectrochimica Acta Part A:Molecular and Biomolecular Spectroscopy,2019,210:362-371.
[15]DENG B C,YUN Y H,LIANG Y Z L,et al.A novel
variable selection approach that iteratively optimizes variable space using weighted binary matrix sampling[J].The Analyst,2014,139(19):4836-4845.
[16]DENG B C,YUN Y H,MA P,et al.A new method for
wavelength interval selection that intelligently optimizes the locations,widths and combinations of the intervals[J].The Analyst,2015,140(6):1876-1885.
[17]YUN Y H,WANG W T,DENG B C,et al.Using variable combination population analysis for variable selection in multivariate calibration[J].Analytica Chimica Acta,2015,862:14-23.
[18]宋雨宸,宦克為,韩雪艳,等.基于蒙特卡洛变量组合集群分析法的小麦蛋白质近红外光谱变量选择[J].长春理工大学学报(自然科学版),2017,40(5):29-35.
[19]杨东,陆安祥,王纪华.高光谱成像技术定量可视化检测熟牛肉中挥发性盐基氮的含量[J].现代食品科技,2017,33(9):257-264.