变量选择相关论文
近年来,生存分析引起了学者的广泛关注,其广泛存在于许多科学研究领域,包括医学、人口学和社会学.本文将讨论生存分析中的区间删失......
作为一种流行的被动投资组合管理策略,指数跟踪主要侧重于复制或跟踪金融指数的表现.以股指为例,传统的投资策略通常考虑指数所有......
期刊
慢性肾病是全球十大疾病死因之一,发病率很高,且难以发现,如果可以在早期的时候就发现肾病的存在,将会大大降低因肾病而死亡的人数。首......
混合面板计数数据出现在有关复发事件的研究或事件历史研究中,复发事件包括一些感染,住院,汽车保修使用和肿瘤发生等.本文主要研究......
针对信用评分中有标记样本获取难度大、成本高的问题,本文提出一种新的基于半监督支持向量机的信用评分模型。通过给未标记样本引入......
党的十九大会议首次提出“经济高质量发展”这一概念,指出中国经济已由高速增长阶段转向高质量发展阶段。这一经济增长模式的转变......
传统原子光谱分析方法不适用于分析聚变等离子体中伪连续谱,为了解决这一难题,本文使用化学计量学方法,开展了柴油凝点的近红外光......
由于亚组识别方法在异质性数据识别中的强适应性而获得了广泛关注。在高维纵向数据建模的背景下,构建了一种数据驱动的亚组识别方法......
单指标系数模型是一类重要的半参数模型,被广泛应用在经济金融和生物医学等领域,其参数结构是部分变量的线性组合;非参数结构可以......
借助于机器学习的多种算法,人们能够比以往更有效地挖掘大规模数据中蕴含的规律和性质等,这对于解决实际的社会问题具有重要意义。......
学位
目前,在高维线性回归变量选择模型中有许多基于非凸罚函数的变量压缩方法,例如SCAD惩罚和MCP的惩罚,它们被证明具有oracle属性。但......
数据规模的迅速增长和数据特征的多样化使得数据分析高速发展,也使得数据分析需要处理的对象越来越复杂,进而需要更多的变量特征来......
诸如Lasso类的惩罚系数变量的选择方法在选入模型时,没有考虑将选择事件的结果视为一个统计行为从而进行相应的统计推断。已有的文......
随着金融市场的不断扩大和股票市场的有效信息持续披露,能够带来稳定的高于市场收益的投资收益的量化投资理论进入到人们的视线,并......
在因果推断中,与随机对照试验相比,从观察数据中估计因果效应已成为一个不断引人关注的研究方向,各种针对观测数据的因果效应估计......
线性模型是应用最为广泛的统计模型之一。在金融、生物、医学等各个领域有着广泛的应用。通过构建模型、估计模型系数,我们不仅能......
正则化方法是机器学习中常用的一种变量选择方法,适用于稀疏性的回归问题.当样本量巨大或者海量的数据存储在不同的机器上时,分布......
在统计学中,越来越多的人开始关注纵向数据以及纵向数据模型,有着十分广泛的应用,尤其在医学和社会学的研究领域,为人们的生活带来......
如何在不可忽略缺失数据情况下进行有效的统计推断是一个极具挑战性的问题,特别是在变量是高维的情形下。本文中,我们基于逆概率加......
被动投资策略深受投资者们的关注,作为其中最为流行的指数追踪问题,也引起了各路学者的兴趣。本文根据现有指数追踪模型,深入探究,......
生长曲线模型,也称增长曲线模型,是PottoffR. F和Roy S. N率先提出来的,到现在己经有将近半个世纪了,其研究意义越来越受到重视,基......
构建精确航空安全预测模型确定事故及其致因因素变化规律,对航空安全智能管理与主动决策具有重要意义。为此,本文中提出一种基于Bow-......
小微企业作为社会经济生活中最广泛、最活跃的生产经营群体,代表甚至决定着整个社会经济的发展情况,其社会经济职能与公共财政职能......
阐述统计数据呈现出多样化,高维数据的处理,变量选择和设置假定条件,探讨高维回归中Lasso、Adaptive Lasso、Group Lasso、SCAD方......
随着近年来大数据相关技术的兴起,数据收集技术的进一步的发展,高维数据大量出现在自然科学、生物医药、信息科学等领域。处理高维......
学位
本文主要对如何充分利用纵向数据的组内相关性来提高对纵向数据半参模型的估计精度以及高维数据的变量选择问题进行研究。纵向数据......
目的 验证不同变量选择方法对临床预测模型性能的影响.方法 从MIMIC数据库中提取了3组样本数据集(急性心肌梗塞组、脓毒症组和脑出......
碳交易作为实现低碳经济的一种途径,既具有环境效益,又具有经济效益.为了研究碳排放权价格的影响因素,选取广州碳排放权交易所的碳......
命题逻辑中的可满足性问题(Satisfiability Problem,SAT)是计算机科学理论和实践中的一个基本问题。SAT问题的可满足性在于确定是否......
随着科技的不断进步与发展,现实世界中需要解决的问题变得越来越复杂,计算机试验作为物理实验的替代和辅助也变得越来越流行。Krig......
大多数人类和动植物的复杂性状都是数量性状,检测控制这些数量性状的基因位点(Quantitative trait locus,QTL)对剖析复杂性状的遗传......
对于经典的回归模型来说,各随机误差项的方差彼此无显著差异,即具有方差齐性,这是回归分析的一个基本假定.在此假定下,常规的统计......
随着经济的发展,股票投资进入大众视野,如何选择成分股对股票指数进行跟踪,越来越受到人们的关注,基于此,针对股票指数跟踪问题,提......
大数据时代下收集到的数据常含有异常值或呈现尖峰厚尾以及变量之间具有较强的相关性,针对此问题,结合秩回归和自适应弹性网(Adapt......
Lasso是机器学习中比较常用的一种变量选择方法,适用于具有稀疏性的回归问题.当样本量巨大或者海量的数据存储在不同的机器上时,分......
纵向数据(集团数据或面板数据),是对同一个个体进行多次观察,所得数据是相关的,不同个体观测所得的数据是独立的.广义线性模型是经典......
本文针对部分线性变系数模型,研究参数分量的变量选择。该模型既含有线性模型作为参数分量,又含有变系数模型作为非参数函数,是两......
选矿过程即为将矿山开采的原矿石经过生产加工,使得有用矿物富集的流程工业过程。选矿过程成功将有用矿物和脉石充分分离,生产出的......
在农业、计量经济学、制造业、医学以及道路安全等众多领域的研究中,计数数据经常遇到,拟合此类数据常用的分布有泊松分布,二项分......
计算机的计算能力不断以数量级单位增长,计算力的突破革新使得数据的获取和存储更加便捷。数据相关技术的提升大大降低了计算成本,......
时间序列是随机事件按照时间顺序的变化发展过程,目前,时间序列已被广泛用于水文、气象学、地震预测、经济学及军事等诸多领域,具......
随着全基因组关联研究的发展,越来越多的与癌症相关的致病基因被发现,探究这些基因如何作用于疾病成为了生物医学与生物信息学的热......
目的 针对临床数据变量类型多、数据结构复杂的特征,基于R-shiny开发交互式分析临床数据并展示结果的应用.方法 基于R-shiny与R语......
光谱分析技术由于具有简单、快速、无损等优势,在复杂体系的定性和定量分析中得到了广泛应用.然而光谱中往往包含成百上千的波长点......
使用正则化方法进行变量选择是统计分析的重要组成部分,Shao&Zhang(2014)首次提出了使用鞅差散度来度量响应变量与预测变量之间的条......