超高维纵向数据及带组结构数据筛选问题的若干研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:wbs304
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的飞速发展和数据收集成本不断的降低,超高维数据频繁出现在许多科学领域,例如基因组学,生物影像,肿瘤分类,经济学,高频率交易,机器学习等。这类数据的典型特点是它的维数p远远大于样本容量n,具体来说按照Fan等(2009)的定义,存在常数α∈(0,1/2),使得:logp=O(nα),即所谓超高维。在稀疏性假设下,如何从超高维数据中筛选出对响应变量真正起作用的少数重要协变量是这类问题的核心。传统的惩罚类型变量选择方法在处理这类问题时,总会碰到以下三个方面的问题:计算复杂性、统计准确性和算法稳定性。与变量选择思想不同,特征筛选通过一种快速筛选方法把那些明显不相关的协变量排除,从而使协变量的维数降到一个相对温和的程度,这样传统的变量选择方法可以顺利使用得出最后模型及相关估计。因此,超高维数据特征筛选是一个很有意义的研究方向。为此,本文对超高维纵向数据和带组结构数据展开若干筛选研究,主要内容如下:(1)在可加模型假定下,我们提出一种利用边际非参数回归的方法处理超高维纵向数据的筛选问题。不同于以往大多数特征筛选问题,纵向数据带有内部相关性。我们利用标准B样条基进行边际非参数回归拟合,并根据拟合程度来衡量各个协变量的重要程度。在一定条件下,可以证明我们的筛选方法具有确保筛选性质。从算法角度,我们提出一种基于数据驱动选取阈值下的先筛选,后变量选择的迭代算法INIS-SAM及其贪婪版本。为进一步控制最后选取模型的大小,我们把一种数据劈开的方法应用到筛选中,得到split-INIS-SAM。模拟显示我们方法的良好有限样本表现,同时通过对酵母细胞周期循环基因表达数据集的分析,展现我们筛选方法的优点。(2)在线性模型的假设下,我们提出一种边际的超高维组变量筛选方法来处理这类带组结构的筛选问题。借鉴单变量筛选的想法,我们分别对各组变量和响应变量做线性拟合,并根据拟合大小来衡量各个组变量的重要程度。理论上,我们证明在一定条件下,组筛选方法具有确保筛选性质。为增强组筛选方法的有限样本表现,我们先给出一种数据驱动的阈值选取方法,并基于它提出迭代版本组筛选方法ISIS-Group-Lasso及其贪婪版本g-ISIS-Group-Lasso。模拟结果显示我们的组筛选方法优于其他组变量筛选方法,并且我们还将这种组筛选方法应用到一个克隆数据的研究中,取得较好的效果。(3)为处理超高维带组结构的数据,我们进一步提出一种无模型假定的边际分位数组筛选方法。它通过基于分位数边际拟合指标来刻画组变量的相对重要程度,且这种方法不需要任何关于协变量矩方面的假设。为了对超高维带组结构数据有更全面的认识,我们允许重要组变量集可以随着分位数的变化而变化。理论上,在相对较弱的条件下,我们的组筛选方法也具有确保筛选性质。与其他组选择方法相比,我们的基于分位数自适应筛选有更好的有限样本表现。最后,我们通过一个基因通路实例数据呈现我们方法的优点。本文的筛选方法丰富了超高维纵向数据和超高维带组结构数据的特征筛选研究,将有助于基因学、生物医学影像和经济学等各个领域中进行重要变量或组变量的选择,从而达到提高计算速度、精简模型和提高预测精度的目的。
其他文献
油气田发展到一定阶段后,为提高开采效益需进行人工压裂改善油流环境,故研究储层的压裂特性十分重要。地应力分析是储层可压裂性评价的依据,岩石力学参数是地应力分析的重要参数,而弹性力学参数的计算建立在已知纵、横波波速的基础上,因此问题就集中在如何精确提取声波时差。多极子阵列声波测井技术可以得到丰富的声波全波列信息,这对储集层压裂特性评价起关键作用。本文提出改进的Prony时差提取方法,该方法首先利用组合
目前我国经济发展进入新常态,经济增长速度有所下降,同时我国的不良资产规模不断上升,商业银行不良贷款的规模也屡创新高。以往我国商业银行都采取折价转让的方法来处理自身的不良资产,但是此方法效率不高,缺乏主动性。而不良资产证券化作为一项金融创新工具,具有市场化程度高、效率高的特点,商业银行通过不良资产证券化能够更高效地对不良资产进行处置。但是结合国内外相关实践经验来看,虽然不良资产证券化有效地解决了不良
日粮精粗比影响反刍动物的泌乳性能,瘤胃微生物在该过程中发挥重要调控作用。但是,由于瘤胃中大部分微生物无法培养,对其功能尚不清楚。微生物宏基因组学技术为研究瘤胃微生
加强对领导干部自然资源资产离任审计是新时期政府审计面临的新任务、新要求。如何构建符合自然资源资产审计特点的审计组织模式是当前实务界、理论界重点研究对象。本文从协
本试验选用初始体重为(44.34±1.58)g,初始体长为(15.20±0.87)cm的津新鲤1260尾,随机分成6组,每组3个重复,每个重复70尾鱼。6组饲料分别含有豆油、鸡油、玉米油、棕榈油、菜
随着信息化水平的飞速发展,Scratch编程教学面临着新的挑战;游戏化学习是将游戏元素或游戏机制融入到学习过程中,通过合理的教学设计,以解决教学中现实问题的一种设计方法、思维方式,游戏化学习可以增强学生的学习积极性;问题解决能力是创造性人才的核心能力之一,是学生必须具备的基本能力,帮助学生成为有效的问题解决者是教育的重要目标。本文针对Scratch编程教学提出面向小学生问题解决能力培养的游戏化教学
深莞惠都市圈是广东省重点推进建设的三大都市圈之一,也是国家粤港澳湾区战略的重点区域。对深莞惠区域的一体化程度进行定量评估,通过衡量区域发展程度,跟踪都市圈演变趋势,
近年来随着我国经济的发展,城市现代化的推进,旅游越来越成为人们生活的必要组成部分。在远足旅游发展的同时,以城市近郊为目的地的周末游、随机有活动迅速增长,目前已占到旅游总体的近70%。其中,动物园依其独特的特点就成为了很多人的不二选择。一方面动物园给人们带来了一个见识大千世界的机会,另一方面动物园能让人们有回归大自然的感觉。绿树成荫、鸟语花香、世外桃源成了动物园的代名词。大青山野生动物园位于呼和浩特
伴随社会经济的发展,市民工作之余休憩的时间增多,乃至公众生活水平需求的日渐提高,致使市民游玩的意愿进一步增强。与此同时,由于近几十年城市化建设的发展和提高,也进一步
球迷文化建设是CBA品牌文化建设的重要组成部分。本论文以"天津篮球运动球迷文化"为切入点,运用文献资料法、调查法、逻辑分析法、数理统计法,在对球迷的基本情况、制度文化