高维数据的相关性分析及网络构建

被引量 : 0次 | 上传用户:wenshicai2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技水平的进步,电子商务、金融、信息检索、无线通信以及生物医学成像等诸多领域迅速崛起,收集的数据所包含的特征量越来越多.这些数据通常被称为高维数据,即数据特征量大于观测样本数.传统的多元统计分析大多适用于维数较低的数据集.在处理高维数据时,很多基于样本协方差阵的多元分析方法,例如似然比检验、因子分析、主成分分析等,都面临着不小的挑战.协方差阵估计不仅在多元分析中起到关键作用,而且在数据的相关性网络结构推断中也扮演了重要的角色.除了协方差阵,高斯图模型下的精度矩阵同样传递了数据的关联性信息.分析相关性网络能够帮助我们更好地了解各特征量在系统中发挥的功能.尤其是在生物学领域,高维组学数据(包括基因组学、宏基因组学、蛋白质组学和代谢组学等)的关联网络分析为认识生命体和生态环境提供了更为全面的视角,对维持个体的健康和推进医疗的发展都起到了至关重要的作用.在实际应用中,我们常常会遇到多类别高维数据,例如不同的组织器官、不同的年龄段等.由于类别之间往往存在内在联系,如何从这类数据中提取不同类别间的共同点并识别出各类别特有的关联特征,就成为我们研究的重点.本论文从两个角度研究多类别数据关联网络的联合估计,既讨论了特征量间的成对相关性,又探究了特征量的条件相关性,综合全面地分析了多类别数据关联网络的结构特征.此外,时变数据也是近几年讨论的热点,比如传感器监测数据、股票交易数据以及临床治疗数据等.这类数据与静态数据相比,数据量更大,处理方法也更为复杂.我们试着构建时变数据的动态网络,尽可能地还原事态发展进程并发现引起动态变化的关键因素.论文主要讨论了高维数据的相关性分析及网络构建.全文总共分为五章,具体的框架结构如下:论文的第一章首先回顾了高维数据协方差阵的四类估计方法,主要是Banding、Tapering、Shrinkage以及Thresholding.接着罗列了高斯图模型下现有的精度矩阵的估计方法,其中着重介绍了基于似然函数的精度矩阵的联合估计.本章最后主要阐述了差异网络的统计分析方法,既包括多类别间的差异网络,又包括时变数据的动态变化网络.论文的第二章提出了多类别高维数据协方差阵的联合自适应阈值估计法(Joint Adaptive Thresholding Estimate,JATE),并推导了估计值的渐近结果.与单一类别的阈值估计相比,该方法更多地考虑了不同类别间结构的相似性,能够更好地提高估计的准确度.虽然联合自适应阈值估计在估计多个高维协方差矩阵时具有良好的渐近性,但在实际应用中估计值未必是正定的.为了解决这一问题,我们进一步提出了联合lasso正定估计,给出了交替方向乘子法(Alternating Direction Method of Multipliers,ADMM)这一有效的求解算法,并在一定的正则性条件下,研究了估计值的理论性质.论文的第三章重点研究了兼具共有和特有核心点的多类别高维数据的联合网络推断.已有不少研究表明现实世界中很多的复杂网络呈现无标度拓扑结构,如代谢网络、基因调控网络等,其各节点拥有的连接数服从幂律分布.针对这类结构特征,我们提出了一种新的统计方法,扩展的联合核心图lasso法(extended joint hub graphical lasso,EDOHA),在构建多元条件相关性网络的同时识别各类别数据的核心节点,给出了模型的ADMM算法并证明了其收敛性.同时,为了提高运算效率,我们还提出了缩小调整参数空间的理论结果.模拟结果显示,与现有方法相比,EDOHA在识别特有核心特征方面的表现更为突出.本章结果还表明,当我们不清楚真实数据的核心节点的情况时,EDOHA模型是一种不错的选择.论文的第四章着眼于时变数据,直接估计相邻时间节点间的差异性网络.针对不同类型的动态网络结构,我们给出不同的惩罚函数尽可能地还原真实的动态变化特征.本章结合了核密度估计和正则化方法构建模型并建立了有效的ADMM算法.同时,我们在指数型尾条件和多项式型尾条件下推导了估计值的一致性结论.模拟研究说明了该模型比传统方法有更好的推断效果.论文的第五章对本论文的主要内容和创新点进行了总结,并对下一步的工作进行展望.
其他文献
数字化体能训练是当今体能训练发展的必然趋势,也是提升运动员身体素质与运动能力的有效措施。为了了解数字化体能训练的综合情况,文章阐述了数字化体能训练的理念,简单分析了当前数字化体能训练的优势和发展趋势,并介绍了数字化体能训练在实际中的应用情况,以期为相关人士的研究提供一定价值的参考。
国外金融服务投入能否促进制造业部门的表现,这一问题在我国金融业开放不断推进的背景下显得尤为重要。本文基于2000-2014年全球投入产出数据(World Input-Output Database,WIOD),从全球价值链增加值核算视角构建国外金融服务投入指标,并结合制造业外部融资依赖度和国内金融发展特征,实证检验国外金融服务投入对制造业出口比较优势的影响。结果表明:(1)国外金融服务投入能够显著
现如今,数字化体能训练成为国际体育领域重点关注的研究内容,其主要是借助先进的科技手段,在运动员进行体能训练时,通过动态测量得到的数据信息对运动员的训练质量进行监控,旨在提升运动员体能训练的质量和效率,实现运动员个性化体能训练。文章将对数字化体能训练的理念进行阐述,同时分析其发展现状及实践应用情况,以期为运动员的训练提供可靠参考。
目的:调查新冠疫情期间基层医务人员职业倦怠情况,为医院管理决策的改进和减轻医务人员职业倦怠提供参考。方法:2021年1—12月,采用问卷调查的方法,对上海市4家社区卫生服务中心医务人员进行现况调查。结果:162名调查对象中,有103人(63.6%)存在职业倦怠,有132人(81.5%)经常参与或每天参与疫情防控一线工作。多因素logistic回归分析结果显示,学历、喜欢社区医生这个职业、防疫工作中
研究目的:在当今信息化时代,"数字化"已经成为了社会发展的新时代特征,并赋予了重要价值。数字化在我国体能训练的应用也越来越广泛,尤其是在奥运会等重大体育赛事周期中,为运动训练提供科学技术支撑。从而探究体能训练的数字化智能转型的相关内容,给运动训练的科学技术实践奠定一定的可鉴依据。研究方法:通过文献资料法、逻辑分析法,对"数字化体能训练的理念、作用以及展望"的三方面问题进行研究。研究结果:1.数字化
金融科技提升了金融机构的风险承担水平。作为一类重要的金融科技,非金融机构的FinTech信贷规模能因为刺激金融机构提升风险承担水平,而使其加大涉农贷款投放以提高涉农贷款占比吗?本文将非金融机构的FinTech信贷规模及金融机构风险承担水平引入Opiela的模型,构建代表性金融机构的目标函数和约束条件,进行理论分析并提出研究假说;然后基于2009—2017年中国31个省市区平衡面板数据,采用个体固定
随着云时代的进步与发展,现代化信息服务正在逐渐进入人们的生活,科技发达、信息爆炸将我们带入了大数据时代。现代信息技术以及大数据技术的飞速发展带动了体能训练的科学化与数据化,智能化训练已经成为提高运动员竞技能力的必备基础之一,智能化训练是将运动员的体能训练数据进行量化和数字化的体现,将运动员在训练实践中的各项指标和信息转换为可分析的数据,针对数据的监控和差异找到运动员的弱点进行体能训练,为提高运动员
<正>幼儿园班本课程的组织与实施是对具体教育实践情境中的问题反复讨论、权衡,以获得一致性的理解与解释,最终做出恰当的、适宜的课程变革的决定与相应的策略。在以往的课程实施过程中,我们通过对课程目标、课程内容、课程组织的梳理发现,我们在班本课程的具体实施中往往对于我们预设与幼儿生成的平衡难以把握。本文以《薯与你,薯与我》班本课程为例,谈谈一些体会。
期刊
介绍构建基于LabVIEW的氧气浓度探测器的方法。该探测器通过测量吸附于其表面的氧气发生解吸附释放的热量来获得气体中氧气的浓度信息,具有体积小,反应灵敏等特点。温度控制部分通过NIPCI6014的D/A输出和PI控制模块实现,功率测量通过NIPCI6014A/D模块实现,时间测量通过对NIPCI6014的Count输出端口计数实现谱型绘制、结果保存、分析等功能通过LabVIEW的相应模块实现。
目的:对60岁以上老年急性髓系白血病(AML)和高危骨髓增生异常综合征(MDS)患者进行临床分析。方法:回顾性分析清华大学第一附属医院血液肿瘤科2009年1月至2021年4月16日就诊的61例老年AML/高危MDS患者的临床资料,接受化疗组45例,单纯支持治疗组16例,应用Kaplan-Meier方法对患者进行单因素生存分析,多因素Cox回归进行生存预后因素分析。结果:化疗组诱导化疗2个疗程后完全