论文部分内容阅读
回归分析在数据分析中占重要地位,其主要任务是预测和解释。传统基于经验风险最小原则的回归分析方法如多元线性回归(MLR)、逐步线性回归(SLR)、偏最小二乘回归(PLS)、二次多项式回归(QPR)等模型常采用复相关系数R、F测验来检验模型的有效性;在确定因子及因子间相互作用的显著性和重要性排序时,常通过对回归模型中一次项、二次项及交互项的回归系数进行t测验或F测验获得。因此,这些传统模型解释性较好,但对高维、非线性、小样本问题的解析能力有限,且对因子重要性排序时,一次项和二次项的排序常出现矛盾。人工神经网络(ANN)具有很好的非线性逼近能力,但存在模型结构难以确定、可解释性差、易出现过度训练、训练不足或易陷入局部最小等诸多缺陷。基于统计学习理论的支持向量回归(SVR)较好地解决了小样本、非线性、过拟合、维数灾、局部极小等问题,且泛化推广能力优异,其理论和应用研究目前均发展迅速,但解释性差的缺陷一直未获根本性解决。本文基于F测验、借鉴QPR模型的解释性体系及两向分组资料的方差分析,为SVR模型建立了一套完整的模型检验和因子分析方法,包括模型回归显著性测验、因子重要性分析、单因子效应及灵敏度分析、两因子互作显著性测验等,拟解决SVR解释性差的缺陷。经二个数据集对解释性体系进行理论验证后,应用于作物抗旱性指标非线性筛选和棉铃虫蛹发育历期与温度关系模拟,最后应用于指导3个配方优化实验,结果显示:1)采用前人已有研究数据(包括阴离子表面活性剂的定量构质关系研究和2个配方优化实例)对解释性理论体系进行了验证,其解释结果与参比模型(SLR和QPR)的解释结果基本一致仅存在细微区别,初步表明了该解释性体系的合理性,且支持向量回归模型性能明显优于参比模型,因此SVR解释结果的合理性更值得期待。2)将解释性体系应用到二个农业相关实例。①以15个水稻品种苗期反复干旱存活率为因变量,从24个形态、生理指标中经支持向量回归非线性筛选得6个综合指标(附重要性排序):苗高**>脯氨酸**>丙二醛**>叶龄**>心叶下倒1叶面积**>抗坏血酸**,且6个综合指标对反复干旱存活率的影响均达到了极显著,以此建立的SVR模型拟合精度与留一法预测精度均明显优于传统的MLR和SLR模型;如考虑指标测量的简易性,仅以地上部干重、心叶下倒2叶面积、根冠比、叶龄、叶鲜重、心叶下倒1叶面积等6个形态指标评估反复干旱存活率同样具有较好的效果。②为深入探讨昆虫发育与温度变化的关系,将解释性体系应用于研究棉铃虫蛹发育历期与温度的关系。结果表明,与传统非线性模型相比(Logan模型、Lactin模型和王氏模型),SVR模型的预测性能优异:SVR模型拟合和留一法的决定系数R2分别为0.998和0.996,估测的蛹期三基点温度较可信,且给出了各因子对发育历期影响的重要性排序(温度**>雌/雄蛹**>恒/变温**);最后从全部样本中均匀选取部分样本实施独立预测时发现,训练集为20个样本时,SVR模型独立预测性能的决定系数R2为0.981,进一步减少到12个样本时,R2仅降低到0.964,而传统模型中基于20个样本时最好的Lactin模型独立预测性能R2仅为0.958。可知,SVR在小样本情况下较传统非线性模型具明显优势,仅通过少量实验便可准确获得各个温度下棉铃虫的发育历期数据,从而大大减少实验次数,并为害虫发生预测和昆虫的人工饲养管理提供了理论指导。3)将解释性体系应用于指导配方优化实验。①以解释性体系结合均匀设计应用于指导产谷氨酸脱羧酶大肠杆菌诱变株的培养基配方与发酵条件优化,在考虑9因素时仅通过2轮28个实验,酶活性(吸光度OD630)即由初始配方的1.528高效提升至2.303,其最优发酵条件为:牛肉膏5g/L,蛋白胨10 g/L,NaCl 3 g/L谷氨酸2.3 g/L,葡萄糖2 g/L,KH2PO43 g/L,MgSO40.6 g/L,pH 6.8,发酵时间20h,与初始配方相比有了明显的提高,且明显优于二次多项式偏最小二乘回归等经验风险最小参比模型预测的最优配方。②应用于木薯生料发酵生产乙醇的发酵条件进行了优化,对10因子经2轮共43个处理,获得乙醇得率的最佳工艺参数为:料水比为1:1.8,初始pH为3.5,温度为32℃,酵母添加量为3.5×107cell/mL,(NH4)2S04为0.5 g,转速为140 rpm,糖化酶添加量为200 u/g,淀粉酶添加量为12 u/g,纤维素酶添加量为25 u/g,发酵周期为120 h,此时的乙醇得率为15.7%;原料转化率的最佳工艺参数为:料水比为1:2.5,初始pH为4,温度为36℃,酵母添加量为5.5×107cell/mL,(NH4)2SO4为3 g,转速为160 rpm,糖化酶添加量为170 u/g,淀粉酶添加量为10 u/g,纤维素酶添加量为25 u/g,发酵周期为120 h,原料转化率达到38.63%;而初始配方的乙醇得率为9.2%、原料转化率为24.76%。③应用于指导棉铃虫幼虫人工饲料配方优化,在考虑6因素时仅通过2轮共14个实验,得到其最优人工饲料配方:黄豆粉为172g、麦麸为14.4 g、酵母浸膏为68 g、蔗糖为21.2 g、菜籽油为2滴、VC为40片,表征配方优劣的指标—平均蛹重即由初始配方的0.2436 g提升至0.3044 g,明显优于二次多项式偏最小二乘回归等经验风险最小参比模型预测的配方,同时也优于实验室前期建立的UD-SVR配方优化方法,且与UD-SVR相比,有效减少了实验的个数。综上,本文为支持向量回归建立的解释性体系较好地解决了其解释性差的问题,为支持向量回归得到更广泛的应用提供了基础,同时也为多因素多水平配方优化实验设计与分析提供了一套预测精度高、指导性强、可解释性好、优化高效的整体解决方案。