论文部分内容阅读
摘 要:目的:应用近红外光谱(NIR)结合偏最小二乘法(PLS)建立小麦粉常规营养成分蛋白质、水分和脂肪的含量预测模型,并选择最佳模型。方法:收集117份小麦粉样品的近红外光谱,化学法测定蛋白质、水分和脂肪的含量,利用主成分分析(PCA)随机分组,81份样品用于构建模型、36份样品用作验证模型的预测能力。探讨波长范围和光谱预处理方法对所建模型预测能力的影响。结果:3个营养成分预测能力最好的模型分别是:对于蛋白质,预处理采用矢量归一化(SNV),波長选取7 505.9~5 446.2 cm-1和4 605.4~4 242.8 cm-1,预测模型的RPD值是7.02;对于水分,无预处理,波长选择全谱12 800~3 960 cm-1,模型的RPD值是6.83;对于脂肪,无预处理,波长在9 000~4 000 cm-1,模型的RPD值是5.06。结论:近红外光谱法可以实现对小麦粉常规营养成分的快速预测,通过选择波长范围和光谱预处理方法可以显著提高模型的预测能力。
关键词:近红外光谱;小麦;蛋白质;脂肪;营养成分
小麦粉是世界范围内生产和消费量巨大的主食原料,富含人体所需的各种营养物质和微量元素。随着人民生活水平的提高,小麦营养和健康品质研究不断深入,小麦品种的改良成为世界主要作物的重要研究方向和育种目标[1]。受品种、产地和遗传等因素的影响,小麦粉中营养成分的含量水平有很大差异[2]。小麦粉中营养成分的水平直接反映了小麦的品质高低,对小麦的生产、加工、储存和后续小麦产品的营养价值、口感等都有很大影响。因此,能快速测定小麦粉中营养成分,特别是常规营养成分(如蛋白质、水分、脂肪等)的含量,对于小麦品种营养评估、品种改良等有很重要的意义。
近红外光谱(NIR)是快速检测领域里应用很广的技术,相比传统化学方法测定营养成分含量,具有操作简单、无需破坏样品、预测准确等优点[3-5]。已有的研究,利用近红外光谱检测营养成分,包括蛋白质、水分、脂肪[4,6-8],涉及到的基质包括奶粉、大豆粉、玉米粉、小麦粉等。之前研究的重点是证明近红外光谱可以代替湿化学方法检测一些营养成分的含量水平,对于样品的纳入和预测模型的选择没有系统的研究对比。本研究旨在检测小麦粉中常规营养成分如蛋白质、水分和脂肪的含量,而且根据样品所含营养成分的含量水平分别收集三种加工程度的小麦粉样品,包括麦芯粉、特一粉和全麦粉来构建预测模型;分别从波长和光谱预处理方法等方面探讨了不同因素对于模型预测能力的影响,选择最优模型对未知样品进行预测。
1 材料与方法
1.1 样品处理和光谱收集
试验用样品是在小麦主产区(陕西和黑龙江)采集13个品种,每种3个批次的小麦样品,每种小麦样品按照不同加工程度制成全麦粉,特一粉和麦芯粉,共收集117(13×3×3)份小麦粉样品。其中,全麦粉按照 LS/T 3244—2015全麦粉国家行业标准[9]制作,特一粉和麦芯粉按照 GB 1355—1986小麦粉国家标准[10]制作。得到的小麦粉样品分装,编号,于-40 ℃的冰箱保存备用。
近红外光谱的采集用德国Bruker公司的MPA型傅立叶近红外光谱分析仪(扫描范围 12 500~3 300 cm-1,分辨率 16 cm-1),取不少于样品杯1/3体积的小麦粉样品,用积分球漫反射模式扫描得到小麦粉的近红外吸收光谱图,每个样品重复装样扫描2次。
1.2 标准分析方法
本研究中小麦样品的蛋白质[11]、水分[12]、脂肪[13]含量分别按照各自现行有效的国标方法测定得到,各指标的数据表示符合国标要求。
1.3 NIR数学模型的建立
本研究利用Bruker公司OPUS软件的Quant 2方法,以偏最小二乘法(PLS)分别建立小麦粉的蛋白质、水分和脂肪的近红外定标模型。光谱预处理是为了消除由于样品差异对光程的多重干扰或减少光谱峰重叠和消除基线漂移[14]。本研究讨论的光谱预处理方法有矢量归一化(SNV)、多元散射校正(MSC)、一阶导数(1st)、二阶导数(2nd)以及几种叠加的光谱预处理方法(如 SNV +1st,MSC +1st)。利用主成分分析(PCA)随机选取30%(36个)样品光谱作为验证集光谱,其余70%(81个)光谱为校正集光谱。用内部检验(交叉检验)建立校正集模型,外部检验(检验集检验)验证校正集模型的可靠性。
1.4 模型预测能力评价
交叉验证决定系数(R2)和交叉验证均方差(RMSECV)评价定标模型的优越性,R2越大,RMSECV越小,代表模型的预测能力越好。外部检验是验证集样品对于定标模型预测性能的评价,通过决定系数(r2)和外部检验均方差(RMSEP)来判定定标模型的预测性能。RPD值(RPD=SD/SEP)的大小也可以评价定标模型的定标效果和预测精度,其中SD为外部验证集样品的成分含量的标准偏差;SEP为验证集标准差,RPD值越大表明模型的预测能力越好。一般情况,RPD>3表明模型定标效果良好,预测精度高,可用于实际检测;2.5<RPD<3表明模型可用于成分的粗略检测,预测精度有待提高;RPD<2.5则表明模型难以对样品成分进行分析[4]。
2 结果与分析
2.1 小麦粉样品蛋白质、水分和脂肪的含量分布范围
利用主成分分析(PCA)将117份小麦粉样品的光谱在近红外全谱区(12 800~3 600 cm-1)进行随机分组,其中70%(81份)作为校正集,用来构建预测模型,剩余30%(36份)作为验证集,用来验证模型的的好坏。如表1所示,3个成分的含量范围比较宽,而且验证集范围落在校正集范围之内,表明了样品选择和分组是合理的。本研究选择了不同品种的3个不同加工程度的小麦粉样品(麦芯粉、特一粉和全麦粉)充分考虑到了品种和加工程度对蛋白质、水分和灰分含量的影响,尽可能在校正集中纳入多的样品,以提高模型的预测能力。 2.2 PLS模型的建立和最优模型的选择
波长和预处理方法的选择,是影响PLS模型预测能力的重要因素,本研究通过分别选取3种波段和7种预处理方法建立了蛋白质、水分和脂肪的PLS模型进行比较,选择成分的最佳预测模型。表2、表3和表4分别是建立的蛋白质、水分和脂肪的PLS模型的统计数据。对于谱区的选择,每个成分都选择了近红外全谱(12 800~3 960 cm-1)和(9 000~4 000 cm-1)这两个谱区,其中选择9 000~4 000 cm-1是因为该谱区包含了小麦粉近红外光谱的全部波峰波谷信息,第三谱区(比如蛋白质选7 505.9~5 446.2 cm-1和4 605.4~4 242.8 cm-1叠加)选择的是不同成分在相应波段所建模型效果较好的。从上述3个成分的PLS模型数据可以看出,通过波段和预处理方法的选择,可以显著提高模型的预测能力,用户可以根据具体需求选择最佳预测模型实现相应成分的检测。其中,蛋白质模型的RPD值从4.34提高到7.02;水分模型的RPD值从5.86提高到6.83;脂肪模型的RPD值从3.36提高到5.06。通过比较,3个成分预测能力最好的模型分别是:对于蛋白质,预处理采用SNV,波长在7 505.9~5 446.2 cm-1和4 605.4~4 242.8 cm-1,预测模型的r2、RMSEP和RPD分别是0.977 9、0.206、7.02;对于水分,无预处理,波长选择全谱12 800~3 960 cm-1模型的r2、RMSEP和RPD分别是0.977 4、0.354、6.83;对于脂肪,无预处理,波长在9 000~4 000 cm-1,模型的r2、RMSEP和RPD分别是0.957 8、0.080 2、5.06。附图直观地显示出几个成分测定值和预测值有很高的相关性,预测结果精确度高。
3 讨论
以往利用近红外光谱测定常规营养成分的研究大多是关于可行性的探讨,涉及到的基质有小麦[2,15]、玉米[8]和奶粉[3,7]等,也有关于预处理方法选择对近红外光谱检测效果影响的研究[16-17]。本研究建模样品选择了3种不同加工程度的小麦粉(麦芯粉、特一粉、全麦粉),确保模型所能预测成分的含量范围足够广;通过波长和预处理方法的选择,比较各模型的预测能力(r2、RMSEP和RPD值的大小)分别得到蛋白质、水分和脂肪预测效果最佳的模型。通过不同因素条件的选择,模型的预测能力均得到很大的提高(其中蛋白质模型RPD值提高到7.02)。比较各成分最佳模型选取的波长区域,蛋白质在7 505.9~5 446.2 cm-1和4 605.4~4 242.8 cm-1,水分在12 800~3 960 cm-1,脂肪則选取9 000~4 000 cm-1,对近红外光谱的吸收特性进行分析,产生这样的差异是因为在建模过程中,蛋白质校正模型所选取的光谱谱带为 N-H键1倍频、2倍频吸收带,而水分和脂肪主要选择 O-H和 C-H键为特征的吸收带[7]。而这些吸收带又不是水和脂肪的专属,所以后两者选取谱区比较宽泛。对于预处理方法,蛋白质预测模型利用了SNV,水分和脂肪模型无光谱预处理,这说明几个因素的叠加并不一定提高模型的预测能力,可能找到合适的波长范围,无需进行光谱预处理也能得到较好的预测模型,反之亦然。
本研究中蛋白质、水分和脂肪的最佳近红外模型的验证集决定系数(r2)均在0.95以上,RPD值分别是7.02、6.83、5.06,相比之前的研究[3,8]模型的预测准确度得到显著提高,可以实现对小麦粉蛋白质、水分和脂肪的准确测量。然而,本研究的建模样品量不是很大,所包含的小麦品种并不全面,模型验证未使用外部验证等,可能是限制模型应用的几个因素。希望随着工作的持续进行,近红外预测模型可以不断优化升级以符合现实测定需求,提高工作效率。
参考文献
[1]张勇,郝元峰,张艳,等.小麦营养和健康品质研究进展[J].中国农业科学,2016,49(22):4284-4298.
[2]李军涛,杨文军,陈义强,等.近红外反射光谱技术快速测定小麦中必需氨基酸含量的研究[J].中国畜牧杂志,2014,50(9):50-55.
[3]叶世著,彭黔荣,刘娜,等.近红外光谱技术在奶粉检测中的应用进展[J].中国乳品工业,2015,43(1):24-26、58.
[4]高慧宇,王国栋,门建华,等.利用近红外反射光谱测定豆种蛋白质、水分和灰分含量[J].卫生研究,2017,46(3):461-466、471.
[5]徐璐璐,毛晓东,孙来军.不同近红外模型在小麦湿面筋快速检测中的应用研究[J].农产品质量与安全,2012(z1):62-65.
[6]何云,张亮,武小姣,等.苜蓿干草常规营养成分含量近红外预测模型的建立[J].动物营养学报,2019,31(10):4684-4690.
[7]张中卫,温志渝,曾甜玲,等.微型近红外光纤光谱仪用于奶粉中蛋白质脂肪的定量检测研究[J].光谱学与光谱分析,2013,33(7):1796-1800.
[8]林家永.近红外光谱分析技术在玉米品质分析中的研究进展[J].中国粮油学报,2010,25(4):108-115.
[9]国家粮食局.中华人民共和国粮食行业标准 LS/T 3244—2015 全麦粉[S].2015.
[10]国家标准局. GB 1355—1986中华人民共和国国家标准小麦粉[S].1986.
[11]中华人民共和国卫生和计划生育委员会,国家食品药品监督管理总局. GB 5009.5—2016食品安全国家标准 食品中蛋白质的测定[S].2016.
[12]中华人民共和国卫生和计划生育委员会.GB 5009.3—2016食品安全国家标准 食品中水分的测定[S].2016.
关键词:近红外光谱;小麦;蛋白质;脂肪;营养成分
小麦粉是世界范围内生产和消费量巨大的主食原料,富含人体所需的各种营养物质和微量元素。随着人民生活水平的提高,小麦营养和健康品质研究不断深入,小麦品种的改良成为世界主要作物的重要研究方向和育种目标[1]。受品种、产地和遗传等因素的影响,小麦粉中营养成分的含量水平有很大差异[2]。小麦粉中营养成分的水平直接反映了小麦的品质高低,对小麦的生产、加工、储存和后续小麦产品的营养价值、口感等都有很大影响。因此,能快速测定小麦粉中营养成分,特别是常规营养成分(如蛋白质、水分、脂肪等)的含量,对于小麦品种营养评估、品种改良等有很重要的意义。
近红外光谱(NIR)是快速检测领域里应用很广的技术,相比传统化学方法测定营养成分含量,具有操作简单、无需破坏样品、预测准确等优点[3-5]。已有的研究,利用近红外光谱检测营养成分,包括蛋白质、水分、脂肪[4,6-8],涉及到的基质包括奶粉、大豆粉、玉米粉、小麦粉等。之前研究的重点是证明近红外光谱可以代替湿化学方法检测一些营养成分的含量水平,对于样品的纳入和预测模型的选择没有系统的研究对比。本研究旨在检测小麦粉中常规营养成分如蛋白质、水分和脂肪的含量,而且根据样品所含营养成分的含量水平分别收集三种加工程度的小麦粉样品,包括麦芯粉、特一粉和全麦粉来构建预测模型;分别从波长和光谱预处理方法等方面探讨了不同因素对于模型预测能力的影响,选择最优模型对未知样品进行预测。
1 材料与方法
1.1 样品处理和光谱收集
试验用样品是在小麦主产区(陕西和黑龙江)采集13个品种,每种3个批次的小麦样品,每种小麦样品按照不同加工程度制成全麦粉,特一粉和麦芯粉,共收集117(13×3×3)份小麦粉样品。其中,全麦粉按照 LS/T 3244—2015全麦粉国家行业标准[9]制作,特一粉和麦芯粉按照 GB 1355—1986小麦粉国家标准[10]制作。得到的小麦粉样品分装,编号,于-40 ℃的冰箱保存备用。
近红外光谱的采集用德国Bruker公司的MPA型傅立叶近红外光谱分析仪(扫描范围 12 500~3 300 cm-1,分辨率 16 cm-1),取不少于样品杯1/3体积的小麦粉样品,用积分球漫反射模式扫描得到小麦粉的近红外吸收光谱图,每个样品重复装样扫描2次。
1.2 标准分析方法
本研究中小麦样品的蛋白质[11]、水分[12]、脂肪[13]含量分别按照各自现行有效的国标方法测定得到,各指标的数据表示符合国标要求。
1.3 NIR数学模型的建立
本研究利用Bruker公司OPUS软件的Quant 2方法,以偏最小二乘法(PLS)分别建立小麦粉的蛋白质、水分和脂肪的近红外定标模型。光谱预处理是为了消除由于样品差异对光程的多重干扰或减少光谱峰重叠和消除基线漂移[14]。本研究讨论的光谱预处理方法有矢量归一化(SNV)、多元散射校正(MSC)、一阶导数(1st)、二阶导数(2nd)以及几种叠加的光谱预处理方法(如 SNV +1st,MSC +1st)。利用主成分分析(PCA)随机选取30%(36个)样品光谱作为验证集光谱,其余70%(81个)光谱为校正集光谱。用内部检验(交叉检验)建立校正集模型,外部检验(检验集检验)验证校正集模型的可靠性。
1.4 模型预测能力评价
交叉验证决定系数(R2)和交叉验证均方差(RMSECV)评价定标模型的优越性,R2越大,RMSECV越小,代表模型的预测能力越好。外部检验是验证集样品对于定标模型预测性能的评价,通过决定系数(r2)和外部检验均方差(RMSEP)来判定定标模型的预测性能。RPD值(RPD=SD/SEP)的大小也可以评价定标模型的定标效果和预测精度,其中SD为外部验证集样品的成分含量的标准偏差;SEP为验证集标准差,RPD值越大表明模型的预测能力越好。一般情况,RPD>3表明模型定标效果良好,预测精度高,可用于实际检测;2.5<RPD<3表明模型可用于成分的粗略检测,预测精度有待提高;RPD<2.5则表明模型难以对样品成分进行分析[4]。
2 结果与分析
2.1 小麦粉样品蛋白质、水分和脂肪的含量分布范围
利用主成分分析(PCA)将117份小麦粉样品的光谱在近红外全谱区(12 800~3 600 cm-1)进行随机分组,其中70%(81份)作为校正集,用来构建预测模型,剩余30%(36份)作为验证集,用来验证模型的的好坏。如表1所示,3个成分的含量范围比较宽,而且验证集范围落在校正集范围之内,表明了样品选择和分组是合理的。本研究选择了不同品种的3个不同加工程度的小麦粉样品(麦芯粉、特一粉和全麦粉)充分考虑到了品种和加工程度对蛋白质、水分和灰分含量的影响,尽可能在校正集中纳入多的样品,以提高模型的预测能力。 2.2 PLS模型的建立和最优模型的选择
波长和预处理方法的选择,是影响PLS模型预测能力的重要因素,本研究通过分别选取3种波段和7种预处理方法建立了蛋白质、水分和脂肪的PLS模型进行比较,选择成分的最佳预测模型。表2、表3和表4分别是建立的蛋白质、水分和脂肪的PLS模型的统计数据。对于谱区的选择,每个成分都选择了近红外全谱(12 800~3 960 cm-1)和(9 000~4 000 cm-1)这两个谱区,其中选择9 000~4 000 cm-1是因为该谱区包含了小麦粉近红外光谱的全部波峰波谷信息,第三谱区(比如蛋白质选7 505.9~5 446.2 cm-1和4 605.4~4 242.8 cm-1叠加)选择的是不同成分在相应波段所建模型效果较好的。从上述3个成分的PLS模型数据可以看出,通过波段和预处理方法的选择,可以显著提高模型的预测能力,用户可以根据具体需求选择最佳预测模型实现相应成分的检测。其中,蛋白质模型的RPD值从4.34提高到7.02;水分模型的RPD值从5.86提高到6.83;脂肪模型的RPD值从3.36提高到5.06。通过比较,3个成分预测能力最好的模型分别是:对于蛋白质,预处理采用SNV,波长在7 505.9~5 446.2 cm-1和4 605.4~4 242.8 cm-1,预测模型的r2、RMSEP和RPD分别是0.977 9、0.206、7.02;对于水分,无预处理,波长选择全谱12 800~3 960 cm-1模型的r2、RMSEP和RPD分别是0.977 4、0.354、6.83;对于脂肪,无预处理,波长在9 000~4 000 cm-1,模型的r2、RMSEP和RPD分别是0.957 8、0.080 2、5.06。附图直观地显示出几个成分测定值和预测值有很高的相关性,预测结果精确度高。
3 讨论
以往利用近红外光谱测定常规营养成分的研究大多是关于可行性的探讨,涉及到的基质有小麦[2,15]、玉米[8]和奶粉[3,7]等,也有关于预处理方法选择对近红外光谱检测效果影响的研究[16-17]。本研究建模样品选择了3种不同加工程度的小麦粉(麦芯粉、特一粉、全麦粉),确保模型所能预测成分的含量范围足够广;通过波长和预处理方法的选择,比较各模型的预测能力(r2、RMSEP和RPD值的大小)分别得到蛋白质、水分和脂肪预测效果最佳的模型。通过不同因素条件的选择,模型的预测能力均得到很大的提高(其中蛋白质模型RPD值提高到7.02)。比较各成分最佳模型选取的波长区域,蛋白质在7 505.9~5 446.2 cm-1和4 605.4~4 242.8 cm-1,水分在12 800~3 960 cm-1,脂肪則选取9 000~4 000 cm-1,对近红外光谱的吸收特性进行分析,产生这样的差异是因为在建模过程中,蛋白质校正模型所选取的光谱谱带为 N-H键1倍频、2倍频吸收带,而水分和脂肪主要选择 O-H和 C-H键为特征的吸收带[7]。而这些吸收带又不是水和脂肪的专属,所以后两者选取谱区比较宽泛。对于预处理方法,蛋白质预测模型利用了SNV,水分和脂肪模型无光谱预处理,这说明几个因素的叠加并不一定提高模型的预测能力,可能找到合适的波长范围,无需进行光谱预处理也能得到较好的预测模型,反之亦然。
本研究中蛋白质、水分和脂肪的最佳近红外模型的验证集决定系数(r2)均在0.95以上,RPD值分别是7.02、6.83、5.06,相比之前的研究[3,8]模型的预测准确度得到显著提高,可以实现对小麦粉蛋白质、水分和脂肪的准确测量。然而,本研究的建模样品量不是很大,所包含的小麦品种并不全面,模型验证未使用外部验证等,可能是限制模型应用的几个因素。希望随着工作的持续进行,近红外预测模型可以不断优化升级以符合现实测定需求,提高工作效率。
参考文献
[1]张勇,郝元峰,张艳,等.小麦营养和健康品质研究进展[J].中国农业科学,2016,49(22):4284-4298.
[2]李军涛,杨文军,陈义强,等.近红外反射光谱技术快速测定小麦中必需氨基酸含量的研究[J].中国畜牧杂志,2014,50(9):50-55.
[3]叶世著,彭黔荣,刘娜,等.近红外光谱技术在奶粉检测中的应用进展[J].中国乳品工业,2015,43(1):24-26、58.
[4]高慧宇,王国栋,门建华,等.利用近红外反射光谱测定豆种蛋白质、水分和灰分含量[J].卫生研究,2017,46(3):461-466、471.
[5]徐璐璐,毛晓东,孙来军.不同近红外模型在小麦湿面筋快速检测中的应用研究[J].农产品质量与安全,2012(z1):62-65.
[6]何云,张亮,武小姣,等.苜蓿干草常规营养成分含量近红外预测模型的建立[J].动物营养学报,2019,31(10):4684-4690.
[7]张中卫,温志渝,曾甜玲,等.微型近红外光纤光谱仪用于奶粉中蛋白质脂肪的定量检测研究[J].光谱学与光谱分析,2013,33(7):1796-1800.
[8]林家永.近红外光谱分析技术在玉米品质分析中的研究进展[J].中国粮油学报,2010,25(4):108-115.
[9]国家粮食局.中华人民共和国粮食行业标准 LS/T 3244—2015 全麦粉[S].2015.
[10]国家标准局. GB 1355—1986中华人民共和国国家标准小麦粉[S].1986.
[11]中华人民共和国卫生和计划生育委员会,国家食品药品监督管理总局. GB 5009.5—2016食品安全国家标准 食品中蛋白质的测定[S].2016.
[12]中华人民共和国卫生和计划生育委员会.GB 5009.3—2016食品安全国家标准 食品中水分的测定[S].2016.