近红外光谱的变量选择算法研究

来源 :新疆大学 | 被引量 : 0次 | 上传用户:xfjs08jx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来近红外光谱分析技术凭借其快速、高效、准确的特点已被广泛应用于各个领域。近红外区的光谱吸收带是由有机物的(C-H、N-H和O-H等)较高能量的官能团在中红外光谱区基频吸收的倍频、合频和差频吸收带叠加而成的,由于近红外谱区域的严重重叠性和不连续性,以及光谱数据的高维度性问题,因此物质的定量或定性相关的光谱信息很难直接提取并给予合理的光谱解析。而变量(波长)选择是近红外光谱多元校准中的关键步骤,可以去除无关、冗余的变量,降低光谱数据的维度及算法的复杂度,以提高模型的预测性能,使校准模型更加可靠,并能提供更简单合理的解释,因而变量(特征)选择在光谱数据分析中起着至关重要的作用。尽管变量选择算法已经在近红外光谱分析中得到切实的发展,但还是有很多问题亟需解决,诸如稳定性、可靠性、可解释性、适用性、建模方法和计算成本等问题。本文的内容就是围绕在稳定性、可靠性、可解释性、计算成本和模型预测性能方面对算法进行改进和提升的。同时本文还重在消除光谱在采集过程中存在的噪声和干扰变量对变量选择算法和模型性能的负面影响。提出了以下两种近红外光谱变量选择算法:(1)提出了一种新的变量选择方法,即选择比率的竞争性群体分析法(SRCMPA)。本文算法采用选择比率,自适应加权采样和模型群体分析的思想,并结合了变量排列和指数递减函数方法。关键波长定义为多元线性回归模型中得分值较大的波长,本文将线性模型PLS下的选择比率的得分值作为评价各波长重要性的指标,然后,根据每个波长的重要性,SRCMPA依次从蒙特卡罗采样中选择N个波长子集,以迭代和竞争的方式运行。在每一次采样运行中,以固定比率的样品以建立校准的PLS模型并计算每个变量的选择比率值,基于排序选择比率的得分值和权重的归一化的SR(选择比率)得分值,采用指数递减函数的强制选择和自适应加权采样竞争选择的两步过程来选择关键变量。最后,应用交叉验证(CV)方法来选择具有最低交叉验证均方根(RMSECV)的子集作为最优子集。本文算法已在小麦蛋白数据集和啤酒数据集上进行了测试,并使用三种高效算法作对比本文算法能够找到数据集的关键波长变量的最佳组合,并能用于解释感兴趣的化学特性,通过建模后的评价结果也是最佳的。(2)本文提出了一种新的变量选择方法,即重要多元相关性竞争群体分析法(SMCPA),它结合了蒙特卡罗采样(MCS)、重要多元相关性(s MC),以及指数递减函数(EDF)和加权自举随机采样(WBS)的竞争方法,并基于模型参数的变量排序策略和模型群体分析(MPA)的思想。SMCPA继承了MPA的核心思想随机抽样和统计分析,对随机抽样产生的大量子模型的性能进行统计分析(即统计检验),利用有兴趣的输出的经验分布来统计分析变量的重要性,这避免了单个模型的不确定性问题。即通过蒙特卡罗抽样(MCS)以随机迭代方式建立大量的子模型的感兴趣输出s MC值的分布进行统计分析,s MC结合了pls回归模型的回归方差和残差方差来统计确定变量的重要性,而s MC则放弃正交方差分解,防止数据集中包含的噪声和干扰变量的影响,这使得所选变量更加的稳定和可靠。在本研究使用F-test统计分析,因为F检验用于评估变量X与实测值y之间关系(回归)的统计显著性。变量根据其各自的F值和定义的有效阈值进行排序,SMC提供了最理想的变量列表,具有最小的假阴性和假阳性误差,然后通过EDF和WBS两种竞争方式选择关键变量,首先EDF强制消除数据集中大量分布的无信息或干扰变量,随后采用WBS进一步消除较弱权重的变量,这类似于进化论中的“适者生存”。权重越大的变量具有较大的概率被保留,而其较弱权重的变量竞争性比较差,在变量种群会被逐渐淘汰。通过逐步更新WBS的可变权重,通过收缩策略逐步消除无信息变量,最后利用所有变量组合子集的交叉验证均方根误差(RMSECV)的分布来确定最佳变量子集。该方法在三个NIR光谱数据集上进行了测试,并与三种高性能变量选择方法进行了比较。实验结果表明,该算法具有最高的效率和最佳的选择效果,通常能在数据集中都能找到关键波长变量的最优组合,本研究平衡了计算成本和模型预测能力之间的关系,PLS建模后的评估结果也是最好的,并能对建模后的多个目标函数进行优化。
其他文献
长阳土家族自治县是一个以农业为主的少数民族自治县,同时是湖北省唯一一个集老、少、山、穷、库于一体的国家扶贫开发工作重点县和武陵山片区县,所以在努力脱贫的过程中不但紧抓经济发展还积极响应国家发展生态农业的号召,在《长阳土家族自治县创建国家生态文明建设示范县规划(2017-2023年)》中对发展生态农业进行了详细规划,以兼顾生态效益和经济效益。众所周知,生态农业的稳步发展除了需要前沿的农业科技外也需要
Cdc25B和PTP1B都是蛋白酪氨酸磷酸酯酶家族的成员,它们分别是抗癌和抗糖尿病治疗的重要靶点。研究工作依据Cdc25B和PTP1B抑制剂对其作用的位点,有针对性地研究类药性好、活性
近年来的资本市场中,上市公司大股东出于利己因素减持套现获取超额收益的行为层出不穷,使得这一群体在减持行为中备受关注,也给资本市场运行秩序造成了不良影响。上市公司大股东作为公司内部人具备较强的信息优势和影响力,为实现其减持获利目的,他们很可能通过盈余管理等操纵信息披露的手段配合减持。这种行为不但大大降低了信息披露的质量,使会计信息真实性和完整性大打折扣,更在一定程度上误导投资者作出不明智的投资决策,
建筑业是安全事故频发的高危行业之一,安全事故的发生,不仅严重损失人民的生命和财产安全,还会影响社会的稳定发展。安全管理措施作为影响安全事故发生的重要影响因素得到了学者们不懈的探究,并取得了丰硕成果。却少有关注安全管理措施的组合对安全绩效的影响关系以及安全管理措施间的相互影响关系。因此,本文通过构建常用安全管理措施间的贝叶斯网络模型探究提高安全绩效的最优管理策略,以期为提高施工项目安全绩效的研究提供
制造业是我国国民经济的支柱产业,也是我国经济社会发展的重要依托,提升我国制造业的整体水平对于实现我国经济健康、稳定发展至关重要。随着经济的发展和技术的进步,传统制
信息和信息技术革命,给这个世界带来了一场前所未有的变革,也不可避免地对法院工作产生了深刻影响。为顺应时代发展,2016年中国提出加快智慧法院建设,中国法院为实现审判体系和审判能力现代化而进入发展新形态。2017年最高人民法院周强院长在全国人大五次会议上指出,新一轮司法改革会融合信息技术,通过信息化手段有序推动司法改革,让信息技术成为人民法院未来发展的翅膀。而智慧法院就是司法信息化改革的成果。201
我国在长期实行城乡二元环境卫生治理模式下,农村环境卫生问题日益凸显,进入新时代以来,村民对村庄环境卫生整洁的呼声也越来越高,国家和政府予以高度重视。在美丽乡村建设的基础上,党的十九大提出乡村振兴战略,将“生态宜居”列入到治理目标中,将生活垃圾、生活污水的治理、卫生改厕以及提升村容村貌确定为改革的主要方向,以此展开对农村环境卫生的整治行动,从整体上改善农村人居环境质量。由于农村的环境卫生治理工作难度
预应力混凝土(PC)斜拉桥已经成为大跨径桥梁中不可或缺的重要组成部分,早期的PC斜拉桥主梁多采用全预应力的设计,而随着全预应力设计在PC斜拉桥的局限性及相关问题的不断暴露,部分预应力混凝土(PPC)设计逐渐进入了混凝土斜拉桥设计。如何验证PPC设计在混凝土斜拉桥设计中的可行性是推广应用PPC斜拉桥必须经历的过程。论文的主要工作如下:1、查阅相关资料并总结了混凝土斜拉桥与部分预应力混凝土桥梁的发展历
增大截面法作为一种通用的混凝土加固技术,因其施工方便快捷性,其被广泛运用在在建建筑和旧建筑加固改造当中,然而增大截面法中往往会出现新老混凝土粘结面抗剪承载力不足的问题,根据国内外研究,新老混凝土粘结面处理方式、界面剂、新老混凝土本身强度等都会对新旧界面抗剪强度产生影响,而目前针对新老混凝土本身强度及混凝土老化效应对新老混凝土粘结界面受力性能研究还较少,并且尚未形成统一规范。开展对混凝土老化对新旧混
走时层析成像作为一种有效还原地层介质速度模型的地球物理反演方法,以其计算量小、计算效率高的优势,长期以来一直被深入研究与应用。本文详细讨论了射线走时层析成像的基本原理与方法,针对走时计算方法,采用了基于程函方程求解的快速扫描算法(FSM),该算法的计算量仅为O(N),相比于传统的快速行进法(FMM)与最短路径算法(SPM),具有更高的计算效率,并能保证足够的计算精度。本文对该算法的原理与数值实现方