论文部分内容阅读
随着大数据时代的到来,数据的维度越来越高而且数据中的冗余信息越来越多,统计学习和机器学习从包含大量的冗余信息的数据中学习或发现有用的信息越来越困难,因此在对数据建模前需要进行变量选择。若假设潜在真实模型为线性模型时,常见的变量选择算法有Lasso、MCP、SCAD等算法。但是Lasso算法所选择的模型趋向于包含了大量的冗余变量;MCP算法所选择的模型趋向于选择更少的变量但丢失了部分重要的变量;SCAD算法所选择的模型与潜在真实模型或真实模型的距离较大。因此,这三种变量选择算法都存在它们自身的固有缺点。本文使用了变量选择偏差的概念(变量选择偏差可以有效的删除冗余变量的同时尽可能的保留重要变量),使用它度量选择的模型与潜在真实模型的之间的距离。因而,本文提出了基于变量选择偏差的变量选择过程(下文称为基于变量选择偏差的变量选择算法),同时基于此提出了基于变量选择偏差的变量排序算法。基于变量选择偏差的变量选择算法是选择拥有最小的变量选择偏差值的变量子集为最优变量子集,其最优变量子集与潜在的真实模型之间的对称差最小,在拥有最少的冗余信息的同时尽可能地包含了有用的、隐藏在数据中的结构信息。文中给出了求解最小变量选择偏差值的最优变量子集的过程和方法,并用数学方法证明了该方法的解是全局最优的。基于变量选择的偏差的变量排序,是使用变量选择偏差对变量进行加权,选择变量权大于某个阀值的变量作为最优的变量子集。该算法所得到的变量子集与阀值大小有关。当阀值为0.5时,基于变量选择的变量选择偏差的变量选择算法和该算法所得到的变量子集是一样的。因此,使阀值小于0.5,那么基于变量选择偏差的变量排序算法所得到变量子集会包含有用信息会更多一些,将有助于对未知样本的预测和区分。本文将两个新的算法和三种传统的变量选择算法(Lasso、MCP、SC-AD)应用于仿真数据和真实数据上,将它们的在未知数据上表现出的性能进行了全面的对比。在噪声水平不是很高的情况下,基于变量选择偏差的变量选择算法在模型预测能力上与Lasso相当,强于MCP和SCAD算法,但是选择的冗余变量远少于Lasso算法。因此基于变量选择偏差的变量选择算法所选择的变量子集中与潜在真实模型之间的距离相对于Lasso、MCP、SCAD的更近,更加可以有效的刻画和描述数据。