超高维纵向数据特征筛选研究

来源 :南京信息工程大学 | 被引量 : 0次 | 上传用户:abcprint
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在实际生产生活中,超高维数据变得越来越频繁,如疾病研究中的基因数据,经济、金融领域的数据等。虽然获得的渠道很多,但是海量数据只有少部分有用也带来了研究上的困难,而超高维数据中的纵向数据由于组内相关这个特点导致更不容易进行一般的统计研究,所以对超高维纵向数据的特征筛选研究具有很大的实际意义。文章基于超高维纵向数据的稀疏性假设,研究广义线性模型的特征筛选问题。具体如下:第一章介绍了研究背景和研究意义,通过对国内外研究方法的介绍得到了文章的主要创新点和主要内容。第二章和第三章从统计推断中的得分检验出发,假定参数真值为0,分别在秩回归系数和C统计量的基础上构造指标进行特征筛选,记为LRSIS和LCSIS。第四章进一步考虑纵向数据的组内相关结构,在LCSIS的基础上添加工作协方差的逆,通过二次推断函数避免工作协方差阵的估计,将广义线性模型参数的估计等式转化为指标进行特征筛选,记为QIFLCSIS。通过理论证明这三种筛选方法的确定性筛选性质,并且证明这些方法能够以概率1选择出真正重要的变量。利用蒙特卡洛模拟,对比SIS在超高维纵向数据下的扩展方法MSIS和文章所提三种方法的筛选效果,得出文章所提指标的优良性。第五章根据文章所提的几种筛选方法进行实例分析,通过Bootstrap抽样抽取样本进行预测,结果表明在1080个变量中选择25个变量能达到0.7的预测准确度,达到了降维的目的。第六章总结了文章所提几种方法的不足以及展望。文章创新点在于:一、将得分检验与指标建立相结合,该思想可以运用于大部分参数模型中,极大的丰富了超高维纵向数据筛选方面的内容。二、文章建立的指标本质上均在变量的秩而非变量本身,所以具有稳健性,不受异常值的影响。同时,由于建立的三个指标均是U统计量的变形,所以文章的指标结果较简单,计算过程也会更快速。三、引入的二次推断函数(QIF)对工作协方差阵进行估计,不需要估计讨厌参数,大大提高了筛选结果的准确性。
其他文献
随着时代的发展,国家文化发展水平等软实力指标在综合评价体系中所占据的比例越来越大。地方志是中国传统文化的重要组成部分,作为公共文化产品,其存在一直致力于服务经济社
相比传统相控阵雷达系统,MIMO雷达在目标识别、检测以及参数估计、电子对抗等方面具有显著优势。其中,MIMO雷达的DOA估计是近年来发展迅速的一个研究热点。由于MIMO雷达目标
中国方志卷帙繁浩,记载一方之史,内容涉及政治、经济、文化、艺术、人物等方面,被誉为“一方之百科全书”,能较为全面地反映地方的发展演变历程和历史文化底蕴。方志具有教化
四足机器人相比于传统的轮式机器人和履带式机器人有着更好的环境适应性和运动灵活性,在军事和民用领域均有着广阔的应用前景。四足机器人Trot步态行走相比于Walk步态行走有
随着公共决策机制的不断完善与社会公共领域的发展,非政府组织参与公共决策过程已经成为政治参与的趋向,当代中国非政府组织逐渐地参与公共决策过程,为公民政治参与提供了一
英山县位于大别山区,鄂、皖两省交界处,现隶属于黄冈市。英山县在漫长的岁月里形成了颇具特色的地方文化。本文从历史地理学角度梳理英山城变迁的过程,总结经验教训,为英山城
本研究对我国优秀青年女子网球运动员的参赛情况进行研究,主要运用文献资料法、个案分析法、对比分析法、数理统计法来分析国内排名前十和世界排名前十的17位优秀青年女子网
房地产开发项目有着开发建设周期长,前期资金投入量大,涉及面广等特点,此外,回报率与国家特别是地方的房地产政策息息相关。近年来,国家不断调整房地产宏观调控政策的方向和力度。当地市场不均衡升温,竞争日趋激烈,导致房地产开发风险大幅上升。房地产企业的生存和发展面临着巨大的考验。为了适应残酷的市场环境,积极主动地或被动地帮助房地产企业生存和发展,寻找和探索全面的风险识别和评估,找出应对风险的措施是最佳选择
开放性越来越高的当今社会,没有任何一个国家能够脱离世界而进行独立发展。2013年,中国国家领导人提出了“一带一路”经济合作倡议,在古代丝绸之路的基础上,希望能够促进亚洲
高等职业技术教育的发展是人类社会进步到一定阶段的产物。在经济快速腾飞的今天,科技的进步、社会的发展,都离不开高等职业技术教育发展的强有力支撑。随着社会的进步,高等