成分数据中基于LASSO的缺失值插补方法研究

来源 :山西大学 | 被引量 : 3次 | 上传用户:zhuzhongbao2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在实际生活众多领域中,经常会收集到大量的缺失数据;尤其是在经济等相关领域中,随着计算机技术的不断发展可获数据的维数越来越高,人们需要处理的数据都是大量的高维数据.维数的增加就会伴随着数据的缺失,那么传统的统计分析方法就不再适合.于是,如何在数据缺失且维数较高的情况下,进行更为有效地统计推断也引起了 多统计学者的关注.成分数据主要用来研究的是构成某个整体的各部分之间的比重,一般解决成分数据的方法是将单形空间上的成分数据转换为欧氏空间上的普通数据,再进一步对普通数据进行统计分析.当成分数据在变换过程中,由于一些主客观等原因会导致成分数据中含有大量的缺失值.如何对成分数据中的缺失数据进行插补,得到完整的数据集是成分数据统计分析研究的首要任务.本文引入一个新的插补方法来处理高维成分数据,并对新的方法进行模拟和实证分析,再与MEAN插补法、knn插补法、ILSR插补法和ILTSR插补法进行比较研究.本文主要研究的是如何处理缺失数据并进行变量选择,包括以下几个工作:(1)了解数据缺失机制和缺失模式;(2)研究处理缺失数据的常用插补方法;(3)提出基于LASSO方法的缺失数据的处理方法;(4)通过模拟研究和实例分析对各种方法的插补效果进行比较分析,分析各方法的优劣和适用范围;(5)归纳总结缺失数据的插补效果的优劣.
其他文献
我在《电脑迷》杂志2009年1月下杂志上看到了有关电源转换效率的问题,所以迫切想知道我的电源转换效率是多少,请问有什么方法么?
期刊
我的电脑采用H55主板,最近新买了一片NVIDIA GeForce GTX460显卡,使用原来的长城350电源,插入PCI-E×16插槽后,使用显卡附送的两个4pin转6pin的转接头,连接好两个6pin的
论述了贵州省矿山地质灾害普遍存在的滑坡、崩塌、泥石流、地面塌陷、地裂缝、地面沉降、矿坑突水等灾种,分析了产生这些环境地质问题的原因和危害,对矿山地质环境造成了较大的
本文描述报道了来自滇黔桂3个省区的香菇属4个种,并给出了种的检索表。
生态位原理需要每个物种(当然包括人类)在自然界中找准自己的生态位,避免生态越位,避免生态位过量重叠。如果人类与其他大量的生物物种争夺生态位而发生生态位重叠(如人类为
(2)经销商营业的援助a店铺、陈列的援助b POP、广告物的援助c劳动力、机动力的援助d展示活动的援助倾向一般贩卖促进的战术,在"倾向"和"流行"的促进中,有些必然性(自然性)的
之前看到《电脑迷》的一篇介绍用可牛影像这款软件来抠图的文章,方法很简单,我就照着试了试,可是抠出来的图缺很多边边角角,一点也不细致。我怎样才能做到书上介绍的那种效果呢?
桑粉虱Pealius mori(Takahashi)为我国桑因为害严重的害虫种类之一。本文概述了桑粉虱在国内分布、寄主种类、发生与危害等,探讨了近年来不同防治方法在控制桑粉虱危害中的作用,
日前,萧山科技局召开重大科技攻关项目专家评审会,对18个项目进行再次审核、评分。最后列入萧山区重大攻关项目共10个,其中工业7个,农业3个,最高将获得50万元的扶持资金。一些“含
已建成的多种化学诱导系统在植物中有广泛的应用,如基因功能分析、无标记植物转化、特定位点DNA切除、育性恢复和RNA沉默等方面的研究.本文所介绍的三种诱导系统GVG、pOp6/Lh