基于LightGBM的两类超高维生存数据特征筛选

来源 :桂林理工大学 | 被引量 : 0次 | 上传用户:myazx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,人们观察的数据维数已经逐步从高维发展到超高维,并且越来越频繁地出现在科学研究的各个领域,例如经济学、生物医学、结构化学等等。由于超高维数据的维数过高,有计算成本高、精度下降等问题,以致目前成熟的高维数据分析方法无法直接应用。如何从超高维数据中提取出真正的重要变量成为众多学者们关注的重点。截至目前,常规的超高维数据研究已经取得重要进展,而对于一些特殊类型的数据,如超高维数据与生存数据相结合产生的超高维生存数据的研究较少。因为这类的数据的采集过程受到多方面因素的影响,删失截尾的情况经常发生,更加复杂,这就要求进一步开发新的办法。本文在前人的基础上,对现有方法进行概括总结,并提出一种应对超高维标准生存数据和超高维半竞争生存数据的特征筛选办法,并在数值模拟和实证分析中验证了新方法的有效性。首先,在超高维标准生存数据下,提出基于Light GBM的无模型确定性筛选(LGB-SIS),在超参数选择上使用贝叶斯优化,用每个特征在迭代树中被分割的总次数作为衡量协变量的重要性。数值模拟时,与SIS和COX-SIS进行比较,结果表明LGB-SIS在稳定性上更优。实证分析表明有基因被这些方法共同筛出,且LGB-SIS的筛选效率很高。其次,在超高维半竞争生存数据下,提出基于Light GBM的联合无模型确定性筛选(JLGB-SIS)。筛选时分别对两个响应变量建立模型,通过贝叶斯优化进行调参后,将两模型的不同特征在迭代树中被分割的总次数求和作为最终筛选协变量重要性指标。数值模拟与基于联合生存函数的筛选办法(JCR)比较,得出JLGB-SIS在不同复杂度的模拟中筛选成功率更高。将本方法用于乳腺癌数据集筛选共同影响两个响应变量的基因,获得较好的效果。最后,对两类超高维生存数据特征筛选方法进行总结发现:基于Light GBM的超高维特征筛选方法在超高维标准生存数据上有一定的筛选有效性和稳健性,但是在超高维半竞争生存数据的联合筛选有效性不足,还有待继续探索和研究。
其他文献
早在1984年,Clunie和Sheil-Small对单叶调和映射与共形映射进行了有关的对比研究,平面调和映射就逐渐发展成为了一个热门的研究方向。调和映射是研究极小曲面的重要内容,而极小曲面在几何学、工程技术方面的应用也具有重要意义,因此深入研究调和映射的相关性质,有利于解决在工程领域中遇到的一些问题。在本学位论文中,我们主要研究平面调和映射线性组合的单叶性和凸性,并得到几个新的结论。两个调和映射
学位
在在线教育需求日益增长的背景下,译者选择了《在线语言教学——在线混合及翻转课堂语言课程的设计和实施指南》一书的第一章作为本次翻译实践的材料。希望通过翻译,将国外在线教育的经验和最新研究成果带给中国的教育工作者。在翻译之前,译者对原文的语言特征进行了分析,原文语言较为直白,句子结构相对简单,适合采用新兴的翻译模式“CAT+MT+PE”(计算机辅助翻译+机器翻译+译后编辑)来提高翻译的质量和工作效率。
学位
《在线语言教学——在线混合及翻转课堂语言课程的设计和实施指南》以教学设计和交际语言教学法的原则为基础,是一本最佳实践、研究和策略的汇编,用于创建以学习者为中心的在线语言教学,在有意义的文化背景下培养学生的能力。这本书是一本较为权威的学术专著,在2020年由劳特利奇出版社出版。本翻译报告以比利时著名语言学家维索尔伦(Verschueren)的顺应论为理论基础。顺应论的重要概念包括做出选择、变异性、商
学位
本篇实践报告的翻译材料是基于无参考译文的英文原版书《帝国叙事:晚期哈布斯堡王朝与奥斯曼帝国的多民族主义观》(Narrated Empires:Perceptions of Late Habsburg and Ottoman Multinationalism)中的节选部分(第三章和第四章)。本书主要是由编辑Johanna Chovanec和Olof Heilo收集了多位作者的论文合成。讲述了欧洲东南
学位
本文以离散网络控制系统为研究对象,分别考虑存在网络频宽受限、网络延迟、外部扰动、数据丢包以及欺骗攻击等复杂情况,运用Lyapunov稳定性理论、动态事件触发机制、比例积分微分(PID)控制方法、基于观测器的控制策略等讨论系统稳定性常用的方法,研究了系统的稳定性及安全性。主要研究内容如下:第一、讨论了基于观测器设计的非线性模糊离散系统的PID安全控制问题。首先,将网络系统建模为一个带有时滞的Taka
学位
随着全球化进程和文化全球化的不断推进,外语的利用率与学习热度达到了空前的高度,这也使得英语教学与创新日益受到人们的关注。译好此类书籍不仅可以使阅读创新类教育书籍变得唾手可得,拓宽中国教育工作者的视野,还能够丰富我国教育创新的理念,吸取国外教育领域的精华,为我所用,其重要性可想而知。此外还可以为相关领域提供参考材料,一定程度上补充国内教育事业的创新短板。《教育与学习中的创造性:教师和教育者的指南》是
学位
近红外光谱(NIR)分析技术是一种基于统计学、数学、计算机科学与化学的快速检测技术。数据分析在光谱统计建模过程中起到重要的作用,通过统计方法的研究,提取隐藏在数据中有价值的信息,分析出待测对象的关键性质特征。由于NIR光谱是一种间接分析技术,需要研究有效的化学计量学方法,构建多目标优化定量分析模型,以提高预测结果的精准性。模型质量对近红外光谱分析的精度有重要影响,需要在样本划分、波段优选、数据预处
学位
鸡蛋因富含多种氨基酸而广受人们欢迎,是人们日常生活中蛋白质的重要来源,在居民消费中占有重要地位。我国是世界上最大的鸡蛋生产国和消费国,截至2020年我国鸡蛋年产量为3512.85万吨,约占世界40%。除此之外,鸡蛋期货于2013年11月8日在大连商品交易所上市,从而鸡蛋期货成为了中国第一个鲜活农产品和畜牧期货品种,其上市不仅丰富了我国期货市场的品种系统,而且也为鸡蛋业规避“鸡飞蛋打”提供了一种有效
学位
投资组合问题是将一定的资金分配到多种资产上,从而尽可能达到收益较大、风险较小的目的,它是金融领域的一个重要课题。马科维茨于提出的均值-方差模型为证券组合问题提供了理论依据。从那以后,各种改进的思路层出不穷,使证券组合理论不断地被完善和发展。本文基于均值-CVa R模型,引入Yager熵补充风险指标,建立均值-CVa R-Yager熵的模糊多目标投资组合,并改进了水波算法,提高了求解投资组合模型的精
学位
基于核的机器学习方法(简称核方法)是人工智能和机器学习领域的研究热点之一,广泛应用于图像处理、生物信息技术、文本分类和入侵检测技术等多个领域。其中,极限学习机和支持向量机(SVM)作为一种高效的分类和检测工具引起了广泛关注。本文提出了一种分布式算法来解决核极限学习机以及SVM在大规模数据集中的应用问题。首先,核极限学习机虽然能够解决复杂的非线性问题,但当处理大型核矩阵时十分耗时。基于此,本文提出了
学位