近红外光谱分析模型优化和模型转移算法研究

被引量 : 9次 | 上传用户:sky011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近红外(NIR)光谱由于信号强度低、谱峰重叠严重等特点,故需要用化学计量学手段建立数学模型来提取有化学意义的信息。为了提高模型的预测效果,NIR光谱模型需要优化;为了提高NIR光谱模型的通用性,必须实现模型转移。NIR光谱模型的优化包括光谱预处理以及变量选择等手段。在光谱预处理方面,本文研究了基于分数阶Savitzky-Golay求导的光谱预处理方法。分数阶Savitzky-Golay求导的光谱预处理方法是对整数阶Savitzky-Golay求导的推广,而整数阶Savitzky-Golay求导则是分数阶Savitzky-Golay求导在阶次为整数条件下的特例。和整数阶Savitzky-Golay求导类似,分数阶Savitzky-Golay求导通过构造奇数点的窗口,先拟合出待求导的多项式的系数。然后,根据Riemann-Liouville对分数阶导数的定义,以及之前拟合的多项式系数,通过对原光谱线性组合,得出分数阶求导的结果。分数阶Savitzky-Golay求导不需要使用繁琐的数学公式,只需构造出对角带状矩阵,将其右乘光谱矩阵即可实现求导计算。我们通过柴油数据,小麦数据、玉米数据对该方法实行验证。结果发现,在固定窗口以及多项式次数的情况下,分数阶导数能获得比整数阶导数更详细的信息,且其计结果的交互检验均方根误差(RMSECV)以及预测均方根误差(RMSEP)均小于整数阶求导。当预测结果为样品粘度、密度、硬度等非组分含量信息时,其计算结果明显优于整数阶求导。在变量选择方面,本文研究了基于变量稳定性的竞争性自适应加权抽样法(SCARS)。该方法通过构造若干个变量集合。对每个集合中的变量,该方法通过Monte Carlo方法计算变量的稳定性,以此作为变量重要性的指标。之后,用基于指数函数的强制删除法以及竞争性自适应加权抽样法(ARS)对变量进行删除。对剩下的变量集合重复上述过程进行变量选择(重新计算稳定性,强制删除,ARS)。最后对每个集合的结果进行交互检验,选择RMSECV最小的集合作为最优集合。我们用烟草数据、玉米数据以及小麦数据对这个方法进行验证。结果发现,基于SCARS选择的变量集,其计算结果的RMSECV值以及RMSEP值均小于移动窗口法(MWPLS), Monte Carlo无信息变量消除法(MCUVE)以及竞争性自适应加权抽样法(CARS)。我们还考察了变量选择导致过拟合问题。我们通过随机数产生的无分类意义的数据,用SCARS法,CARS法以及MCUVE法进行变量选择,结果发现对于这些无分类意义的数据,变量选择方法居然能够选择一些“较好的”变量组合,使其校正集的计算误差极大地减小,且原数据变量数越大,分类的结果“越好”。除了分类数据之外,我们对随机产生的回归数据也做了研究,也发现了同样的现象。这种异常的结果揭示了变量选择也会导致过拟合,从无信息数据中找到一些“好的”变量组合,使变量选择的结果偏向于校正集。为了研究这种现象的产生原因以及预防策略,我们用烟草尼古丁数据作为有信息组分,然后添加和有信息数据成不同比例的无信息数据构造模拟数据。然后将这模拟数据,分为校正集以及独立测试集两部分。其中校正集用SCARS方法进行变量选择,对每一个变脸选择的集合,我们不仅计算其校正集的RMSECV值,同时用校正集建模计算其独立测试集的RMSEP数值。考察随着变量集合的收缩,RMSECV以及RMSEP的变化情况。结果发现,对于以噪声作为无信息数据,当噪声的标准差小于等于有信息光谱标准差均值0.02倍时;对于以重排光谱作为无信息组分的数据,无信息组分的强度小于等于有信息光谱强度的0.1倍时,RMSECV的的变化趋势和RMSEP乎一致。但是随着无信息组分的增加,其变化趋势的相似性变小。对于以噪声作为无信息组分的数据,当噪声的标准差大于有信息光谱标准差均值0.02倍时;对于以重排光谱作为无信息组分的数据,无信息组分的强度大于有信息光谱标准差均值0.1倍时,RMSECV以及RMSEP变化趋势有显著差异。比较变量选择中RMSECV以及RMSEP变化趋势图可用于检验变量选择算法的有效性:当二者变化较小时候,可以认为变量选择是有效的;而当二者差异较大时,则变量选择算法是无效的。在模型转移方面,本文研究了基于光谱中有信息成分的模型转移方法。通过预测向量的偏最小二乘法(PLS)分别从主光谱和从光谱中提取与预测值建模相关的信息。之后,用基于光谱校正的模型转移法(典型相关分析法(CCA)、直接校正法(DS)以及预测矩阵的偏最小二乘法(PLS2))将从光谱的有信息成分转移成主光谱的有信息组分。最后将转移后的有信息组分代入主光谱的模型进行预测。我们用玉米数据、三组分体系数据以及人工配置的牛奶中富马酸二甲酯数据,对这种模型转移方法进行了验证。结果显示,对于基于光谱转移的模型转移法,基于光谱中有信息组分的转移的结果要好于基于全光谱的模型转移。
其他文献
2007年,杭州市将婴童行业列入"十大特色潜力行业",更将"亲子杭州"作为婴童行业品牌营销,大力培育发展杭州的婴童产业,以期实现"婴童产业之都、生活品质之城"的又一城市新名片
期刊
成本核算不仅是财务部门的事情,而是包括生产管理、采购与销售各部门的事情。一是成本核算需要生产车间、技术部门、采购部门、销售部门等多部门的配合;二是计算出的成本是否
针对国家大剧院的超椭球外墙 ,开发了一种采用自攀爬构型的新型清洗机器人。这种机器人没有吸附装置 ,而是通过机器人与壁面构成高可靠性的抓持铰实现在垂直、倾斜的壁面上移
研究了各种因素对合成碘化铑的影响。采用均匀实验方法对试验进行设计以及数据优化处理,确定合成碘化铑反应的最佳值因素水平数,即:反应温度为500℃、反应时间为30 h、碘铑比
微型企业的融资困难一直困扰着微型企业的健康稳定发展,成为制约微型企业发展壮大的瓶颈。文章以重庆市微型企业融资现状为例,从政府、银行和企业自身多角度地分析了造成微型
在对高职连锁经营管理专业学生就业岗位群及岗位职业能力要求分析的基础上,结合高职连锁经营管理专业学生职业能力培养存在的问题及原因分析,探究高职连锁经营管理专业学生职
我国土地登记制度的框架已经基本构建,但由于长期以来忽视土地权利造成的全社会土地权利意识淡薄,土地权利人合法权益无法得到保护,我国土地登记仍存在登记法律、登记程序、
<正>"犯罪的本质特征是严重程度的社会危害性,行为是否构成犯罪取决于行为的性质和其性质的程度,犯罪行为是违法行为在社会危害性的量上发生变化的结果。"[1]因此,确定犯罪数
虚拟资本是社会主义市场经济的重要组成部分,从马克思的关于虚拟资本衍生过程的论述中,可以得出虚拟资本具有二重性的特点。在金融资本发展迅速的新时期,必须充分认识虚拟资
<正>中国古代的养老事业,历史悠久。从周代开始,就开始注意养老的善政,但养老的机构大多建在京城。南朝梁武帝,是一位迷信佛教的皇帝,曾于普通三年(522年),诏令说:"凡民有单