基于MRCD估计的多元线性回归模型的稳健估计

来源 :广西师范大学学报(自然科学版) | 被引量 : 0次 | 上传用户:leo5_1_8
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
含异常值的数据和高维数据越来越频繁地出现,对现有的稳健估计和多元线性回归估计方法提出了挑战.传统的多元线性回归模型估计对异常值非常敏感,基于MCD估计方法的多元线性回归估计对异常值有一定的抵御作用.但随着数据维数的增加,MCD估计的精度不断降低,稳健性也随之降低,且当数据维数大于样本量时MCD估计方法失效.因此,本文利用MRCD的均值向量和协方差矩阵估计,提出了基于MRCD估计方法的高维稳健多元线性回归模型估计.数值模拟的结果表明,基于MRCD估计方法的多元线性回归模型估计能很好地抵御异常值,且在数据维数大于样本量的情况下,基于MRCD估计方法的多元线性回归估计更为有效.实证分析的结果表明,基于MRCD方法的多元线性回归估计能更好地抵御异常值并得到更好的预测效果.
其他文献
确定独立筛选(SIS)方法在处理超高维稀疏线性回归模型的变量选择问题上已得到了广泛的应用,且已被推广到处理广义线性回归模型的变量选择问题.但SIS不能很好地解决非线性回归模型的变量选择问题,关于该问题的现有研究也较少,因此,如何有效地对超高维稀疏非线性回归模型进行变量选择是一个具有研究价值的问题.本文在经典的SIS方法基础上,利用互信息的刀切估计(JMI),提出JMI与SIS相结合的方法,给出具体算法步骤,以实现超高维稀疏非线性回归模型的变量选择问题,并通过一些有代表性的统计模拟试验,验证所提方法的相合性
有1份仅含A类与B类的训练集,与1份包含不止这2个类别的测试集,如何对测试集中的样本进行分类?针对这个问题,本文提出3种基于SVM方法和最小包围球方法(minimum enclosing ball,MEB)的新类别分类方法.这3种新类别分类方法不仅解决了SVM不能正确判别新类别的缺点,而且在实际数据分析中获得了较好的效果.本文使用乳腺癌分子分型数据进行分析,最终样本分类准确率可达90%以上,新类别样本分类正确率可达99%以上.
随着医疗技术的进步,各种新技术与新方法不断涌现,评价这些方法测量结果的一致性尤为重要.可靠的一致性评价结果对提高医疗服务质量、减少医疗资源浪费具有重要意义.目前我国对临床测量中Bland-Altman一致性评价方法的研究较少,且在临床应用中该方法的使用不当问题凸显.本文讨论单次测量和重复测量情况下的Bland-Altman一致性评价流程,针对不同数据类型介绍其处理方式,并对该方法的使用规范进行梳理,以帮助医学工作人员在临床数据分析中正确使用统计分析方法.
随着医学的发展,某些无法治愈的疾病能够被治愈,并且在一段时间内不复发,从而导致在复发事件数据中出现治愈个体.本文针对复发事件数据基于含治愈个体的半参数比率模型提出一种经验似然方法,建立经验对数似然比函数,并证明Wilk\'s定理.通过数值模拟将所提出的经验似然方法与正态逼近方法进行比较,得到在样本量较小时,所提出的经验似然方法解决了正态逼近方法覆盖率不足的问题.最后将本文方法应用于一组膀胱癌数据的分析,得到的结果与实际相符.
广义极值分布自提出以来就受到众多学者关注,它可以用于拟合某些寿命数据,在医学、 工程和气象等领域应用很广泛.本文主要在区间删失I型数据,即现状数据下研究三参数广义极值模型的贝叶斯回归分析.基于广义极值分布的位置参数引入协变量,建立位置参数与生存时间的贝叶斯回归模型,并采用Gibbs抽样和MH算法相结合的MCMC方法,从各个参数的后验分布中进行抽样,得到参数的估计值.利用R软件进行数值模拟,比较极大似然估计和贝叶斯估计在有限样本下的效果,结果表明参数生存回归模型拟合效果好,模拟结果显示贝叶斯估计优于极大似然
本文研究非对称DAR模型的估计和检验问题.运用拟极大似然方法,构造模型的参数估计,在某些正则条件下,证明估计的相合性和渐近正态性.基于此,构造拟似然比统计量检验模型的非对称性,在原假设和备择假设下,给出该统计量的渐近分布.数值模拟和实证分析结果表明:本文所构造的模型参数估计和检验方法具有良好的有限样本性质.
变量筛选是处理超高维数据的一种有效方法.针对部分变量与响应变量显著相关,Barut等基于线性模型假定提出CSIS方法,能有效降低伪变量错选概率.但CSIS方法线性模型假定严苛,实际研究中有时不能事先确定模型结构.由此,本文基于非参数可加模型提出条件非参数独立筛选方法(CNIS),不需要对模型结构进行假定,增大了适用范围.同时,在适当条件下,证明本文方法第1阶段的筛选具有一致性筛选性质,能以概率1保留重要变量;第2阶段的变量选择也具有良好相合性.Monte Carlo数据模拟结果表明:相较于NIS方法,本文
在面板数据混合效应模型中,大量未知随机效应的存在,给模型参数估计带来极大困难;同时随机误差的分布未知,不同分布下的随机误差会增加模型计算的复杂度,对固定效应与随机效应系数的变量选择与估计带来困难.为了解决这一问题,本文建立贝叶斯双Adaptive Lasso分位回归模型,将Adaptive Lasso惩罚函数同时引入到含固定效应与随机效应的面板数据中,构造参数估计的Gibbs抽样算法.蒙特卡罗模拟结果表明,该方法不仅能准确估计不同面板数据模型的参数系数,还能对重要变量进行选择.
随着我国风电产业迅速发展,风电并网规模不断扩大,准确预测风电场输出功率是降低风电波动对电网影响、提高电能质量、保证电网稳定运行的有效途径.本文采用箱型分析及热卡填充的方法对数据集中的异常数据进行清洗与重构.采用遗传算法与EEMD分解算法相结合的方式改进BP算法,并且根据不同时间尺度预测结果对比,相对于传统预测模型而言,本文EEMD-GA-BP模型具有预测精度高,预测效果更为稳定等特点.
科学研究中,样本量和功效计算是非常重要的工作.可加风险模型是生存分析研究中经常用到的半参数模型,其协变量对基础风险函数有加法作用.和比例风险模型相比,可加风险模型在许多应用中效果更好,尤其是协变量取值为0或1时.本文基于Wald检验,提出一种计算可加风险模型现状数据功效和样本量的新方法.模拟结果说明该计算方法十分有效.另外,本文通过1个实际例子展示新方法的应用.