基于稳定相关系数的超高维特征筛选研究

来源 :南京信息工程大学 | 被引量 : 0次 | 上传用户:asd710601
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着人工智能和大数据的飞速发展以及海量数据收集能力的不断提升,超高维数据已经频繁的出现在大众的生活中。庞大的数据量给高维数据分析带来了许多困难与不便,并且超高维数据会常出现在许多领域,如社会科学、医学、金融学、特别是生物学和基因组学。与高维数据相比,超高维数据拥有更为复杂的数据量,分析难度也随之增大,因此对超高维数据的研究是有必要的。本文在超高维数据的背景下,旨在研究针对超高维数据的特征筛选方法,具体研究内容如下:第一章系统地介绍了本文的研究背景和研究意义,同时介绍了国内外关于高维数据变量选择和超高维数据特征筛选方法的研究现状,以及本文的主要研究内容和创新点。第二章结合稳定相关系数提出了新的特征筛选方法来降低超高维数据的维度。首先基于给定响应变量Y下,预测变量X的分布函数,提出稳健相关系数(RSC)并构建了针对超高维数据的稳健特征筛选方法(RSCS)。一方面该方法满足确定筛选性质,另一方面利用蒙特卡洛数值模拟和真实卵巢癌TP53基因数据对RSCS的筛选性能进行了检验,结果表明它们有稳健的筛选性能,实际应用效果出色。第三章在第二章已有筛选指标和筛选方法RSCS的基础上,旨在针对超高维异质性数据构建更加稳健,筛选效果更好的筛选方法,通过给定预测变量X下响应变量Y的条件分位数,构建了分位数相关系数(RQSC),并提出了针对超高维数据的稳健分位数特征筛选方法(RQSCS)。RQSCS方法满足确定性筛选性质,多次数值模拟研究和转基因小鼠扩张型心肌炎实例表明了其优良的筛选性能。第四章将第三章的筛选指标RQSCS与复合分位数回归思想结合,在给定预测变量X,响应变量Y的复合分位数下,构建了复合分位数相关系数(CRQSC),并提出了针对超高维数据的复合分位数特征筛选方法(CRQSCS)。该方法不仅满足确定性筛选性质,在数值模拟和实例数据中也表现出色。第五章对本文的研究内容进行了详细地总结,并指出了文章存在的一些不足以及对这些不足的进一步思考。
其他文献
随着国内消费市场迎来新一轮消费升级,许多品牌通过品牌升级来谋求新的发展出路。面对新消费群体和新老烘焙品牌的挑战,成立30年的好利来用新模式实现了品牌年轻化,带动了国内烘焙行业发展,提高了发展水平,是本土品牌学习的对象和创新发展的风向标。本文从品牌为什么要年轻化、如何年轻化以及年轻化后的困境,以好利来为例进行分析,旨在为其他国货品牌创新升级提供思路,促进国货品牌长远发展。
期刊
随着车险费率市场化改革的进行,我国逐步将车险的定价权交由保险公司行使,因此识别客户风险、厘定差异化的车险保费也成为保险公司的研究重点。然而,目前我国使用的车险费率因子较为单一,费率厘定模式缺乏客观性,而且用于费率厘定的模型也较为传统和落后。为此,本文将更多的车险费率因子引入模型中,并改进现有模型对纯保费和自主定价系数进行研究,为保险公司创新车险产品提供参考。首先,本文在参考美国车险费率厘定模式的基
学位
随着通讯技术与互联网技术的快速发展,形式多样的数据已渗入到人们日常生活中的方方面面,越来越多的用户选择将数据外包存储至云服务器中,如何确保外包数据的完整性成为了云存储中亟需解决的关键问题。云数据审计方案能够通过辅助信息对数据进行验证以判断数据的完整性是否被破坏,为用户外包于云服务器中的数据安全性提供了一定的保障。然而,传统的云数据审计方案着重于判断外包数据的完整性,而忽略了数据动态操作的性能需求和
学位
双侧截断数据指受客观条件所限导致样本只有落在一定区间才可被观测的数据类型,这类数据常出现在天文观测,计量经济与生存分析领域。例如在天文观测等领域由于观测能力的上下限导致数据未被观测记录,在生存分析等领域由于观测时间有限导致的时序数列首尾截断等。多种双侧截断形式导致基于该类样本数据无法获得准确的数据特征和精准的参数估计结果。故而本文分别从特定模型下双侧截断数据的参数估计和基于深度学习的数据特征学习方
学位
近年来,无论在中国还是世界其他地方,极端天气气候事件频发,严重影响了人们的日常生活,给许多国家造成了重大的经济损失。南半球海洋,是地球气候系统中一个非常重要的组成部分,它主要通过海温异常变化来对大气环流产生重要影响,从而调节和影响区域乃至全球气候。而作为南半球海洋之一的南大西洋,它的贡献必不可少。因此本文利用英国Hadley Centre提供的43年的逐月海温资料,采用经验正交分解(Empiric
学位
随着经济发展、城市化进程和全球一体化的推进,局地和区域的气象条件、空气质量水平和能见度也在不断发生变化。尤其是,能见度对交通出行、生产生活、军事行动等方面有着显著影响,低能见度等恶劣天气会严重威胁社会正常运转和人们的生命财产安全。江苏省是我国经济规模最大、最具活力的省份之一,近年来该地区低能见度天气现象频发,严重影响了人们的生产生活和身心健康。因此,结合江苏省能见度的时空分布特征和影响因子分析,开
学位
大豆作为世界上最主要的植物油源与植物蛋白源,是东方饮食文化的重要部分,占据五谷之一。我国大豆的年产量供求在现今的农作物栽培水平下无法达到平衡,存在供不应求的局面。目前,中国大豆年产量无法满足内需,大豆总产量短缺并依赖进口。因此,如何去选择优良大豆品种来进行育种问题亟待解决,以此提高国内培育出大豆的品质,在总体上提升我国的大豆产值。在大豆品质的衡量上,大豆粒荚的籽粒数是极为重要的标准,保证豆粒荚的籽
学位
奖惩系统在各国的汽车保险行业中被广泛使用,是汽车保险的重要组成部分。本文从三个不同的角度出发,对奖惩系统展开研究。本文首先考虑索赔额对奖惩系统的影响,构建一个以索赔次数和累积索赔额为划分依据的奖惩系统。通过实际数据进行实证研究,说明分层广义线性模型计算奖惩系数相较于广义线性模型更优。为说明包含索赔次数和累积索赔额的奖惩系统的优势,对其进行稳态分析和严厉性分析,发现包含索赔次数和累积索赔额的奖惩系统
学位
随着深度学习相关技术和理论的快速发展与进步,相关算法已经应用于股票价格预测。深度学习由于其强大的学习能力等优点,在股票价格预测上的表现常常优于传统的预测方法。新能源行业因其环保、节能的特点,发展前景一片光明。政府出台的政策也推动着新能源行业的发展。通过预测新能源类股票的价格走势,可以帮助投资者做出合适的决策,并在一定程度上反映出新能源行业的发展情况,促进相关资源的有效配置。本文研究在几个重要的前提
学位
在消费升级的大浪潮中,烘焙是鼎盛行业,尤其是在居民营养膳食结构的整改中具备独特作用。很多烘焙相关公司渐渐放弃以往利用过度曝光构建品牌效应的销售方式,转变为使用较为前沿的互联网营销技术结合电商、社交、搜索、内容等各种方式创设新型营销手段。此研究主要针对烘焙企业互联网营销方案展开探究,希望给广大中小型烘焙企业实施互联网营销提供参考。
期刊