【摘 要】
:
随着信息时代的来临,海量信息的涌入使得数据呈现出爆发式的增长,任何微小的数据都可能产生不可思议的结果.变量选择是进行数据处理的最重要的手段.传统的变量选择方法不具备处理高维数据的优异性能,催生了引入惩罚函数来选择和估计模型的新方法.1996年经典惩罚变量选择方法Lasso的出现是一个突破性的进展,中心思想是将系数进行压缩,遗憾的是不具备Oracle性质.有研究者尝试在惩罚项中添加权重进行改进.另外
论文部分内容阅读
随着信息时代的来临,海量信息的涌入使得数据呈现出爆发式的增长,任何微小的数据都可能产生不可思议的结果.变量选择是进行数据处理的最重要的手段.传统的变量选择方法不具备处理高维数据的优异性能,催生了引入惩罚函数来选择和估计模型的新方法.1996年经典惩罚变量选择方法Lasso的出现是一个突破性的进展,中心思想是将系数进行压缩,遗憾的是不具备Oracle性质.有研究者尝试在惩罚项中添加权重进行改进.另外,在实际问题中,变量往往存在异常值且具有群组结构.基于惩罚思想的稳健组变量选择方法应运而生,能够建立结构简洁,易于解释,精确度高的稳健模型.本文主要研究基于AFT模型(Accelerated Failure Time Model)的稳健组变量选择问题.当生存数据中存在厚尾误差或异常值时,利用LAD(Least Abso-lute Deviation)回归估计未知参数,结合组变量惩罚方法,提出AGPWLAD方法(Adaptive Group Penalized WLAD),进而实现参数的稳健组变量选择.理论上,证明了此方法具有组变量选择的相合性和参数估计的渐近正态性.应用上,基于现有方法进行改进,给出数值模拟结果并得到较好的数值分析结果.最后将本文方法应用到原发性胆汁肝硬化数据中,分析结果表明本文的方法表现较好.本文结构安排如下:第一章介绍了 Cox比例风险模型和AFT模型的相关基础知识及相关的研究现状.第二章介绍了有关惩罚变量选择和惩罚组变量选择的方法,并分别介绍了这两类惩罚的研究成果.第三章是本文的主要部分,利用Kaplan-Meier权重解决删失的问题,在AFT模型中提出AGPWLAD估计的目标函数.在一般性的条件下,得到了估计量的相合性.此外,通过适当地选择调整参数,得到的估计具有Oracle性质.结果表明,基于AFT模型的AGPWLAD方法可以同时完成组选择和参数估计.第四章给出了计算AGPWLAD估计的算法和调整参数的选择.在不同删失比例下和不同的误差分布下,利用此算法进行数值模拟,并取得了不错的模拟结果.并通过实际数据分析说明了该方法的实用性.第五章对本文的研究进行了总结.
其他文献
2021年2月,国家统计局发布的《2020年国民经济和社会发展统计公报》指出,我国的互联网普及率已高达70.4%,在这之中中国初中生手机持有率达到86.5%,可见对教育者来说如何合理使用手机已经成为一个刻不容缓的问题。与此同时,学科课程的难度逐年上升,对初中生的要求也越来越高,初中生的学业压力也进一步增大。通过对初中生学业情绪与生活满意度的关系研究,发现其内在的影响机制,为初中生能健康生活,更好地
写作是语言能力的重要方面,初中阶段是学生学习写作的关键时期。然而,目前的初中英语写作教学仍然存在很多问题,如教师缺乏有效的教学方法教授写作,学生缺乏积极的写作态度,写作质量不高。自从哈默1998年提出ESA教学模式后,越来越多的学者对其进行研究。ESA教学模式在中国的既有研究主要集中于阅读,听力教学方面,在写作教学中的研究较少。本研究以前人研究成果为基础,结合英语教学实践,尝试将ESA教学模式应用
北京冬奥会的成功申办为我国冰雪项目发展带来新的契机,在世界冰雪强国竞技体育水平不断提高的背景下,为进一步提升中国队的竞技实力,在冬奥会取得更加优异的成绩,运用文献资料法、数理统计法、比较优势指数分析法、对比分析法、逻辑分析法对中国队参加冬奥会项目布局进行研究,通过梳理近5届冬奥会我国参赛情况,了解中国队冰雪项目的参赛特征,运用竞技体育比较优势理论发现参赛项目的优势所在,明确我国的优势、潜优势项目的
试验是人们认识、了解自然的重要手段,它在农业、工业等方面都有十分广泛的应用.全设计是包含每个因子的所有水平组合的设计,它可以估计所有因子的主效应及全部交互作用.很多试验由于受到试验成本和试验时间的限制,只能实施部分因子设计.在实际试验中,当某些因子的水平改变十分困难或花费较多时,则不可能实施一个完全随机的部分因子试验,这时就需要采用部分因子裂区(fractional factorial split
近年来,随着经济和金融市场的迅猛发展,金融市场的波动性变大,随之而来的金融风险日益严重.风险不仅仅存在于金融市场中,我们的日常生活中它也无处不在,小到日常中的磕磕碰碰,大至重大险情的发生,如突如其来的新冠疫情,无不昭示着风险的客观存在性与破坏性,如何能够准确地度量风险并及时规避风险,成为了当下人们关心的问题.风险本质上可理解为事情变化的不确定性.由于风险的不确定性,长久以来人们希望能有一种表达可以
本文以《新实用汉语课本》中级(3、4册)每课课后的Cultural Note(以下均称为“文化知识”)部分为研究对象,以ESP理论(需求分析理论)为基础,参考大学英语需求分析模型研究成果,尝试构建了适用于对外汉语学习者的文化知识学习需求分析模型。另对研究对象进行内容分析得出其“文化知识”部分存在的必要性和合理性,为验证该模型的可行性设计了相关需求分析调查问卷并进行分析,将分析内容实际应用到具体教学
现如今我们国家已经进入了老龄化社会,关注中老年的幸福感成为了一个重要课题.针对老龄化社会,国家提出了渐进式延迟性退休的新型政策,研究当前退休政策对老年人的幸福感产生何种影响对于国家新政策实施以及调整具有重要意义.一个国家的老年退休人群是一个特殊人群,提升他们的主观幸福感将会对一个国家的文化、社会、经济等各方面都产生深远的影响.本文采用最新数据研究退休对主观幸福感的影响,通过生活满意度衡量主观幸福程
试验设计在工业、农业等多个领域有着广泛应用,是工程师和科学工作者在产品的研发和工序的开发等方面的重要工具,因子设计(factorial design)是其中一种非常普遍和重要的试验设计方法.全因子设计可以估计所有因子的主效应及其交互效应,但需要进行的试验次数比较多,所以从经济和节约成本的角度出发,通常采用部分因子(fractional factorial)设计.在一个试验中,如果某些因子的水平难以
随着互联网技术的发展,教育理念的变革,用户教育需求的升级和生活方式的转变,中小学在线教育的市场规模大幅度增长.尤其在2020年,受新冠肺炎疫情的影响,中小学延期开学,教育部发布“停课不停学”的通知,加速了中小学在线教育平台的发展.相比线下教育,在线教育无学习地点局限,可以实现资源利用最大化,学习行为自动化,学习形式交互化,教学形式个性化和教学管理自动化.现如今,中小学在线教育平台良莠不齐,关于在线
随着智能终端的发展和普及,人们的衣食住行逐渐从线下转为线上,越来越多的人在外出住宿时会选择从网上预订酒店,因此选择一款方便实用的预订酒店软件(application,简称app)至关重要.本文旨在对预订酒店app的评论评分等各项指标进行分析,挖掘出用户关注点,进而为用户选择软件以及软件开发者完善软件提供参考和建议.本文对预订酒店app平台数据和评论数据进行分析.首先,对预订酒店app的用户评论数据