高维的强相关数据的模型选择

来源 :中南大学 | 被引量 : 9次 | 上传用户:jgkffdkjkdsf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本论文从模型选择的角度研究如何处理高维的,强相关的,多维共线性又带有噪音的数据。主要包括三章:   第二章,我们提出了一种用于多主成份的光谱数据分析的波长区域选择算法,即弹性网结合偏最小二乘的组变量选择方法(EN-PLSR)。EN-PLSR算法通过两步能够自动地选择连续的,强相关的预测变量波长区域。首先,一些与响应变量相关的预测变量被选择出来并根据弹性网估计子的组效应分成一些子变量组。每个子变量组中的变量都是强相关的。然后我们在交互验证的均方根误差(RMSECV)的标准下,提出了留一组的策略用来进一步的收缩变量,降低模型复杂度。现实的近红外数据实验结果表明,EN-PLSR算法比全谱的最小二乘方法和移动窗最小二乘方法效果要好,特别是当数据集呈现强相关的时候。   第三章,我们同样从组变量选择的角度考虑强相关的多维共线性的数据的变量选择和模型估计问题,提出了一种新颖的组变量选择方法:权融合弹性网(WFEN)。WFEN结合了分别由弹性网和权融合LASSO惩罚诱导出的两种组变量选择机制,能很好地统一在LASSO的框架上并能用有效地解出。我们利用模拟的和真实的数据检验WFEN模型,结果表明我们的算法与其他的LASSO类型的方法相比在处理多维共线性性数据时有较大的优势。   第四章,我们提出了一种用于用于研究化合物的生物活性与描述子之间的所谓的结构.活性关系(SAR)的非线性分类方法。该方法主要由核主成份分析和线性支持向量机组成(KPCA+LSVM),我们用KPCA去除数据中的噪音之类的冗余信息,然后用核定义特征空间上的一些主成份来发掘训练数据集中潜在的数据结构。线性支持向量机利用最大间隔超平面得到了KPCA转换空间上的最大推广性能。与单纯的初始空间上的线性支持向量机和另外两种非线性支持向量机相比,KPCA+LSVM能够有效的提高预测精度。三个SAR数据集上的外部验证和内部验证结果表明,KPCA+LSVM算法具有很强的竞争力。
其他文献
在每座知名老建筑的背后,都站着一个或多个值得后世记忆的老人物。那里是他们生活和工作的地方,也是他们济世救人的通道和平台。有形的肉体和建筑一样,是易逝的;但无形的人物
本学位论文研究了具有细胞内时滞和饱和发生率的HIV-1感染模型的动力学行为.通过从理论上对模型的稳定性、持续性和Hopf分岔进行分析,我们给出了决定HIV-1病毒粒子在寄主细胞
分割图像在处理图像和分析图像中起着承上启下的作用,在数字图像处理这门学科中最具有挑战力,又十分有诱惑力的一项技术。用偏微分方程的理论知识方法来处理图像分割中的问题
这是一篇关于自入射代数的平凡扩张与斜群代数的博士论文,主要包含以下三个方面的内容。   1.分次自入射Koszul代数Λ的平凡扩张T(Λ)的Koszul性,在本文第三章中,我们定义了
本文包含相对独立的两个部分,第一部分的核心内容包含第二、三、四、五章,第二部分包含第六章。   第二章给出必要的几何背景知识。   在第三章,我们在广义复几何的背
By combing the properties of chaos optimization method and genetic algorithm,an adaptive mutative scale chaos genetic algorithm (AMSCGA) was proposed by using o
南滨路上的艺术大戏rn当方力均标志性的“光头泼皮”画作“打着哈欠”,当叶永青“画个鸟”,当俸正杰“艳俗的一张脸”出现……8月5日,重庆迄今为止规格最高、规模最大的当代
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
随机微分方程的发展已经有60余年了,从20世纪40年代日本数学家伊藤清创立了随机微积分的理论后,随机微分方程有了迅速的发展,并在经济、生物、物理、通信、自动化等领域有着广泛
Let P(s,δ) be a sphere plant family described by the transfer function set where the coefficients of the denominator and numerator polynomials are affine in a