论文部分内容阅读
本论文从模型选择的角度研究如何处理高维的,强相关的,多维共线性又带有噪音的数据。主要包括三章:
第二章,我们提出了一种用于多主成份的光谱数据分析的波长区域选择算法,即弹性网结合偏最小二乘的组变量选择方法(EN-PLSR)。EN-PLSR算法通过两步能够自动地选择连续的,强相关的预测变量波长区域。首先,一些与响应变量相关的预测变量被选择出来并根据弹性网估计子的组效应分成一些子变量组。每个子变量组中的变量都是强相关的。然后我们在交互验证的均方根误差(RMSECV)的标准下,提出了留一组的策略用来进一步的收缩变量,降低模型复杂度。现实的近红外数据实验结果表明,EN-PLSR算法比全谱的最小二乘方法和移动窗最小二乘方法效果要好,特别是当数据集呈现强相关的时候。
第三章,我们同样从组变量选择的角度考虑强相关的多维共线性的数据的变量选择和模型估计问题,提出了一种新颖的组变量选择方法:权融合弹性网(WFEN)。WFEN结合了分别由弹性网和权融合LASSO惩罚诱导出的两种组变量选择机制,能很好地统一在LASSO的框架上并能用有效地解出。我们利用模拟的和真实的数据检验WFEN模型,结果表明我们的算法与其他的LASSO类型的方法相比在处理多维共线性性数据时有较大的优势。
第四章,我们提出了一种用于用于研究化合物的生物活性与描述子之间的所谓的结构.活性关系(SAR)的非线性分类方法。该方法主要由核主成份分析和线性支持向量机组成(KPCA+LSVM),我们用KPCA去除数据中的噪音之类的冗余信息,然后用核定义特征空间上的一些主成份来发掘训练数据集中潜在的数据结构。线性支持向量机利用最大间隔超平面得到了KPCA转换空间上的最大推广性能。与单纯的初始空间上的线性支持向量机和另外两种非线性支持向量机相比,KPCA+LSVM能够有效的提高预测精度。三个SAR数据集上的外部验证和内部验证结果表明,KPCA+LSVM算法具有很强的竞争力。