支持向量回归解释性体系的建立及应用

来源 :湖南农业大学 | 被引量 : 5次 | 上传用户:bloodfort
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
回归分析在数据分析中占重要地位,其主要任务是预测和解释。传统基于经验风险最小原则的回归分析方法如多元线性回归(MLR)、逐步线性回归(SLR)、偏最小二乘回归(PLS)、二次多项式回归(QPR)等模型常采用复相关系数R、F测验来检验模型的有效性;在确定因子及因子间相互作用的显著性和重要性排序时,常通过对回归模型中一次项、二次项及交互项的回归系数进行t测验或F测验获得。因此,这些传统模型解释性较好,但对高维、非线性、小样本问题的解析能力有限,且对因子重要性排序时,一次项和二次项的排序常出现矛盾。人工神经网络(ANN)具有很好的非线性逼近能力,但存在模型结构难以确定、可解释性差、易出现过度训练、训练不足或易陷入局部最小等诸多缺陷。基于统计学习理论的支持向量回归(SVR)较好地解决了小样本、非线性、过拟合、维数灾、局部极小等问题,且泛化推广能力优异,其理论和应用研究目前均发展迅速,但解释性差的缺陷一直未获根本性解决。本文基于F测验、借鉴QPR模型的解释性体系及两向分组资料的方差分析,为SVR模型建立了一套完整的模型检验和因子分析方法,包括模型回归显著性测验、因子重要性分析、单因子效应及灵敏度分析、两因子互作显著性测验等,拟解决SVR解释性差的缺陷。经二个数据集对解释性体系进行理论验证后,应用于作物抗旱性指标非线性筛选和棉铃虫蛹发育历期与温度关系模拟,最后应用于指导3个配方优化实验,结果显示:1)采用前人已有研究数据(包括阴离子表面活性剂的定量构质关系研究和2个配方优化实例)对解释性理论体系进行了验证,其解释结果与参比模型(SLR和QPR)的解释结果基本一致仅存在细微区别,初步表明了该解释性体系的合理性,且支持向量回归模型性能明显优于参比模型,因此SVR解释结果的合理性更值得期待。2)将解释性体系应用到二个农业相关实例。①以15个水稻品种苗期反复干旱存活率为因变量,从24个形态、生理指标中经支持向量回归非线性筛选得6个综合指标(附重要性排序):苗高**>脯氨酸**>丙二醛**>叶龄**>心叶下倒1叶面积**>抗坏血酸**,且6个综合指标对反复干旱存活率的影响均达到了极显著,以此建立的SVR模型拟合精度与留一法预测精度均明显优于传统的MLR和SLR模型;如考虑指标测量的简易性,仅以地上部干重、心叶下倒2叶面积、根冠比、叶龄、叶鲜重、心叶下倒1叶面积等6个形态指标评估反复干旱存活率同样具有较好的效果。②为深入探讨昆虫发育与温度变化的关系,将解释性体系应用于研究棉铃虫蛹发育历期与温度的关系。结果表明,与传统非线性模型相比(Logan模型、Lactin模型和王氏模型),SVR模型的预测性能优异:SVR模型拟合和留一法的决定系数R2分别为0.998和0.996,估测的蛹期三基点温度较可信,且给出了各因子对发育历期影响的重要性排序(温度**>雌/雄蛹**>恒/变温**);最后从全部样本中均匀选取部分样本实施独立预测时发现,训练集为20个样本时,SVR模型独立预测性能的决定系数R2为0.981,进一步减少到12个样本时,R2仅降低到0.964,而传统模型中基于20个样本时最好的Lactin模型独立预测性能R2仅为0.958。可知,SVR在小样本情况下较传统非线性模型具明显优势,仅通过少量实验便可准确获得各个温度下棉铃虫的发育历期数据,从而大大减少实验次数,并为害虫发生预测和昆虫的人工饲养管理提供了理论指导。3)将解释性体系应用于指导配方优化实验。①以解释性体系结合均匀设计应用于指导产谷氨酸脱羧酶大肠杆菌诱变株的培养基配方与发酵条件优化,在考虑9因素时仅通过2轮28个实验,酶活性(吸光度OD630)即由初始配方的1.528高效提升至2.303,其最优发酵条件为:牛肉膏5g/L,蛋白胨10 g/L,NaCl 3 g/L谷氨酸2.3 g/L,葡萄糖2 g/L,KH2PO43 g/L,MgSO40.6 g/L,pH 6.8,发酵时间20h,与初始配方相比有了明显的提高,且明显优于二次多项式偏最小二乘回归等经验风险最小参比模型预测的最优配方。②应用于木薯生料发酵生产乙醇的发酵条件进行了优化,对10因子经2轮共43个处理,获得乙醇得率的最佳工艺参数为:料水比为1:1.8,初始pH为3.5,温度为32℃,酵母添加量为3.5×107cell/mL,(NH4)2S04为0.5 g,转速为140 rpm,糖化酶添加量为200 u/g,淀粉酶添加量为12 u/g,纤维素酶添加量为25 u/g,发酵周期为120 h,此时的乙醇得率为15.7%;原料转化率的最佳工艺参数为:料水比为1:2.5,初始pH为4,温度为36℃,酵母添加量为5.5×107cell/mL,(NH4)2SO4为3 g,转速为160 rpm,糖化酶添加量为170 u/g,淀粉酶添加量为10 u/g,纤维素酶添加量为25 u/g,发酵周期为120 h,原料转化率达到38.63%;而初始配方的乙醇得率为9.2%、原料转化率为24.76%。③应用于指导棉铃虫幼虫人工饲料配方优化,在考虑6因素时仅通过2轮共14个实验,得到其最优人工饲料配方:黄豆粉为172g、麦麸为14.4 g、酵母浸膏为68 g、蔗糖为21.2 g、菜籽油为2滴、VC为40片,表征配方优劣的指标—平均蛹重即由初始配方的0.2436 g提升至0.3044 g,明显优于二次多项式偏最小二乘回归等经验风险最小参比模型预测的配方,同时也优于实验室前期建立的UD-SVR配方优化方法,且与UD-SVR相比,有效减少了实验的个数。综上,本文为支持向量回归建立的解释性体系较好地解决了其解释性差的问题,为支持向量回归得到更广泛的应用提供了基础,同时也为多因素多水平配方优化实验设计与分析提供了一套预测精度高、指导性强、可解释性好、优化高效的整体解决方案。
其他文献
综合分析了世界各国锻压轧制车轮的热变形工艺及设备配置,将其归纳为四类。举例好各类工艺和设备特点,对比了各类工艺防止车轮偏心的成败经验和提高生产效率的途径。也介绍了马
本文通过文献查阅对近年来国内外学者有关高职教育校企合作的研究进行了综述,分别从校企合作人才培养模式、理论、存在的问题、对策方面作了梳理,同时对该项研究进行了总结和展
目的:比较不同产地白术土炒品中所含化学成分差异,为评价土炒白术质量提供参考依据。方法:采用高效液相法,建立不同产地10批白术土炒品HPLC图谱,运用指纹图谱与化学模式识别
超高性能混凝土(Ultra High Performance Concrete,UHPC)是一种具有超高强度、高韧性和优异耐久性的水泥基材料。这些优异性能可使混凝土构件的尺寸和自重显著变小,抗震性和
目的观察不同剂量卡维地洛对幼鼠在慢性心力衰竭发展中的左室重构作用.方法采用腹主动脉缩窄术建立慢性心力衰竭(CHF)模型,5周龄Wistar幼鼠随机分组为对照组、大剂量卡维地洛
在民主法制的社会里,知情权是公民的一项基本权利,要加强对公民知情权的确立和保障。我国在宪法上没有对其明确的规定,知情权在我国宪法中只是一项隐含权,随着形势的发展,应
文章以《第五(命运)交响曲》第一乐章一课为例,着眼于学生音乐欣赏能力的发展,结合教学实践从解读教材、研读学生、律动辅助、强化聆听等方面,谈如何在课堂中发展学生的音乐
希罗多德不仅是西方"历史学之父",而且也可以说是"民族学之父".他开创的研究民族学的基本方法,诸如调查法、比较法,以及"客观"与"求实"的科学态度,至今对我们研究民族学仍具
目的探讨中医辩证方法治疗急性尿路感染的临床效果,并总结治疗经验。方法选取2016年2月~2017年3月于本院接诊的急性尿路感染患者100例,以随机数字表法平均分为辨证治疗组和对
针对机加工生产线的工作特点,提出了一种用三菱FX2N系列PLC设计电气控制系统的方法,分析了系统液压工作原理,给出了系统的软件设计方法和PLC输出端的硬件保护措施,实践证明,