论文部分内容阅读
一般地说,多元数据分析处理的对象是刻画所研究问题的多个统计指标在多次观察中呈现的数据。样本数据具有离散且有限的特征,但是现代的数据收集技术所收集的信息,不但包括传统统汁方法所处理的数据,还包括具有函数型形式的过程所产生的数据.在处理数据的时候我们就会遇到模型建立的问题,这时候我们就把一些多元数据分析模型应用到函数型数据中(比如线性模型).那么在线性模型中变量的选择问题就很重要了.在分析这种模型的时候,人们根据问题本身的的专业理论及有关经验常常把各种与因变量有关的自变量引进模型,其结果是把一些对因变量影响很小的,甚至没有影响的自变量也选入了模型中,这样一来,不但计算量大,而且估计和预测的精度也会下降,此外在一些情况下,某些自变量观测数据的获得代价昂贵,如果我们对这些本身对因变量的影响很小或根本没有影响的自变量不加选择的引入到模型当中,势必会造成观测数据收集和模型应用费用的不必要加大,因此,本文基于函数型数据的普遍特征,在函数型数据分析时,对进入模型的自变量作了精心选择.
本文主要的工作是利用Tibshirani(1996)提出的lasso方法,将函数型回归模型系数进行压缩,并且使某些系数变为0,再利用其他方法将变为0的系数截去,从而来确定模型的阶数,进而达到变量选择的目的。