基于降维的两样本均值检测

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：mdskct

【摘要】

：

现代社会已全面进入信息化时代,科技发达,信息快捷畅通,人们之间的交流越来越密切,生活越来越方便,大数据就是这个高科技信息时代的产物。“大数据”在物理学、生物学、环境

【作者】

：

赵恒昱

【出处】

：

哈尔滨工业大学

【发表日期】

：

2004年期

【关键词】

：

经验似然两样本均值检测高维统计方法模型识别

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

现代社会已全面进入信息化时代,科技发达,信息快捷畅通,人们之间的交流越来越密切,生活越来越方便,大数据就是这个高科技信息时代的产物。“大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,近年来因互联网和信息产业的发展越发引起人们关注。随着大数据时代的到来,海量的样本量无时无刻不影响着我们的生活,更理所当然在某些程度上为我们的日常生活带来了更多的便利:比如我们可以以一个相对较低的价格对全基因组进行测序,可以更加便捷地对监控视频进行分析,可以建立庞大的指纹数据库,对于一些其他领域,比如商业、工程等更是如此。数据可以以一个更大规模、更低价格生产和存储。决策将日益基于数据和分析而作出,而并非基于人们的经验和直觉。大数据是如此重要,以至于其获取、储存、搜索、共享、分析,乃至可视化呈现,都成为了当前重要的研究课题。大数据在其它学科上也有很多应用,比如基因组学,金融学等。一些研究员可以用大数据来预测股票行情,在今年年初发生的新冠疫情中,有很多科学家进行病毒的基因测序等。在社交网络上,每人每天都有海量的数据产生,在一些日常使用的软件中,如微信的聊天记录、微博等社交媒体的浏览记录。这些数据显示了每个人不同的特征。利用大数据给人们的生活带来了改变和提升,比如个性化医疗、个性化服务等。大数据给我们生活带来了很多便利的同时,也给我们带来了相应的挑战,这使得我们需要去研究新的统计方法。其中一个很重要的原因就是,很多传统的统计方法在低维度或者样本量较小的时候有良好的性质,但是当面临海量数据的挑战的时候就会失效,比如说,Hotelling-T2检验。在低维度的时候,Hotelling-T2检验是一种常用的多变量检验方法,常用于两组均值向量的比较。因为统计分析过程中的三大要素可以被概括为:计算复杂性,模型可解释性以及统计精度。当维度较低的时候,传统统计的研究过程中,所需要选择的特征变量的数量p远小于样本的观测值n。在这个基础上,上述三大要素并不需要考虑其他的要素的问题而做出牺牲。在大数据时代的背景下,研究的数据的维数越来越大。比如说,在研究微阵列基因的数据时,我们所采用的阵列的数量级一般为数十,但是相应的基因表达谱的数量级却在数万以上。这些基因组数据,卫星提供的大量图像数据等等,维数都至少为成千上万,更有维数增加的速度快于样本容量增加速度的挑战。在这种情况下,基于高维情形下的数据分析有着很重要的理论以及实际意义。变量选择是高维统计推理中最关键的部分之一。数据往往是冗余的,主要原因有以下几个方面:从多个角度收集的特征是相关的,而且存在大量的噪声溢出信号。噪声会导致数据丢失、异常值和异质性,给统计推断带来障碍和不稳定性。我们想从收集到的数据中提取有用的信息以作进一步的分析。对于高维统计模型,稀疏性原则被广泛采用。稀疏性原则表示,即使收集到很多维度的特征信号,但是其中真正有用的也是少数的。我们在此原则上进行特征选择,降低了求解的难度。现在的变量选择问题,一般都是通过一系列变换,将超高维的数据化为可能的低维流形中。在这种情形下,我们假设p维变量的参数是稀疏的,也即,大部分分量均为0,剩余的非零分量即为我们所要的特征变量。在稀疏性条件下,我们可以通过筛选出来我们所需要的特征因子,进而大幅提高估计的准确性,提高检验的功效。当然,值得一提的是,当我们认为变量的稀疏性存在的时候,可以大幅度的减少我们计算的时间。相应的,变量选择也是高维统计推断中最重要的一环。有很多经典的变量选择方法,包括基于信息论的AIC选择,基于贝叶斯方法的贝叶斯信息准则BIC等。在高维情形下,这些经典的变量选择方法存在一些问题,比如说,在变量选择的过程中,由于忽略了随机误差项导致估计的理论性质错误或者无法给出。在另外一个方面,由于变量个数过多,会产生计算复杂的问题,计算量会过于复杂。纯粹的经典的变量选择方法已经不适于在高维统计推断中做高维数据的变量选择。近些年来,将惩罚函数应用到变量选择中的方法受到了普遍的关注。利用惩罚函数的思想进行变量选择的核心在于,利用合适的惩罚函数可以将较小的系数压缩到零,从而可以将系数估计值较大的保留。从而,选择合适的惩罚函数,可以一方面选择出重要的变量,另一方面估计出系数。近些年来被广泛研究的惩罚函数包括:桥回归(Lq惩罚),Lasso惩罚(L1惩罚),光滑切片绝对偏差惩罚函数(SCAD),弹性网惩罚,Adaptive Lasso惩罚,非凹惩罚函数(MCP)。1937年,Wilks提出了参数模型的似然比统计量的渐进分布为标准的卡方分布。Owen将Wilks的理论推广到了非参数模型,得到了同样的结论,证明了他所提出的经验似然比统计量的渐进分布也为标准的卡方分布。Owen提出的经验似然的方法最大的优点即为不需要对样本的分布作出假设,在此基础上仍然有一些参数似然的优点,比如说,Wilks理论以及Bartlett修正性。值得一提的是,由于Owen提出的经验似然的方法不需要用到估计量的方差,简化了传统参数方法中的复杂的方差计算,因此,自从Owen提出了经验似然的方法之后,被许多统计学家进一步研究与推广。值得一提的是,经验似然方法在构建置信区域的时候,由于不需要对置信区间的形状进行约束,也不需要构造相应的枢轴量。随着大数据时代的来临,很多统计学家已经将经验似然方法拓展到高维数据中,完成了很多高维大样本情形下的统计推断问题。本文将经验似然方法应用于高维生长的双样本问题,研究了即使数据维数p大于样本量n的情况。对于很多领域的应用来说,讨论两样本均值问题时,通常来自于两个总体的样本的均值是相同的或者是只有少数几个坐标不相同。换句话说,在备择假设下,两个样本均值之差是稀疏的。所以我们本文研究的也是稀疏情况下的两样本均值差的问题。我们知道一般的经验似然方法在处理高维参数的模型的时候遇到了困难。我们借鉴了广义矩方法来进行变量选择,提出了一个新的模型去减少参数维度的限制。我们提出了一个新的带有惩罚项的经验似然方法,通过在优化过程中对相应的拉格朗日乘子进行惩罚。我们提出的方法使用了 SCAD惩罚函数去进行变量选择。我们证明了在不影响估计量有效性和一致性的前提下,通过对拉格朗日乘子进行惩罚,可以有效地降低维度。理论证明了新的惩罚似然估计的拉格朗日乘子估计量是稀疏的而且与渐近卡方分布的非零分量一致。在进行假设检验的部分,我们提出了最大的边际经验似然比作为一个测试统计量,来进行两样本均值是否相等的检验。通过选取合适的指标集,选取所求的拉格朗日乘子的支撑集作为我们的指标集,求出临界值,我们可以得到一个功效很高的检验。在数值模拟部分,我们通过设置不同的协方差矩阵来研究我们所提出的方法的表现。我们发现,可以很好的进行变量选择。再假设检验部分,我们发现在备择假设下,即使施加一个很小的扰动,我们提出的方法也可以很好的拒绝原假设,有很强的敏感性。在高维度的情况下,即使p>n,我们的方法效果依然很好。最后,我们采用了一个急性淋巴细胞性白血病的数据集,来检验两种分子类型的病人B-细胞基因基因数据的均值是否相等。结果表明,两种分子类型的病人B-细胞基因基因数据的均值差异显著。数值仿真结果和一个实际数据分析表明了该方法的有效性。

其他文献

Mg-Zn-Gd系中三元化合物相的形成及其合金性能的研究

镁合金具有较高的比强度、比刚度,阻尼性能和电磁屏蔽性能优异,同时具有加工性能好、易回收等优点,因而得到广泛的应用。同时,镁合金的塑性低、耐蚀性差等缺点又极大的限制了

学位

Mg-Zn-Gd合金三元杆状相形成与演变影响因素合金性能

带相依结构的二维列联表的多重比较

列联表是一种常见的数据存储格式,其中的数据是将观测数据按两个或者更多属性进行分类后的频数。列联表常用于医学、生物学、社会科学等学科之中。通过对列联表进行统计分析,

学位

二元二项分布重抽样方法相关性多重检验

评估社区林业对农村生计的影响

该研究考察了社区林业对农村生计的影响,并考察了社区当地人通过社区林业创收的各种方式。该数据是通过与户主访谈和关键信息提供者而获得的,管理了392份问卷,并将其分发给该

学位

社区林业家庭总收入农业农村民

日照渔家乐在线产品口碑的影响因素研究

日照渔家乐历经二十余年发展至今,以其独特的渔家风情和民俗文化吸引了众多旅游者,也成为更多渔民创业的新选择。虽然渔家乐旅游产品多年来不断尝试更新换代,但囿于传统理念

学位

日照渔家乐网络口碑影响因素策略

含Co-Fe-Ni高熵合金的结构调制和性能研究

高熵合金（High-entropy alloys,HEAs）具有独特的原子结构特征,因而呈现出诸多不同于传统合金的独特性能,在国际学术界引起了广泛的关注和研究兴趣,并在工程应用上具有巨大的潜

学位

高熵合金退火处理低温处理微观结构力学性能耐蚀性能

UBD在哈、维、汉三民族食管鳞癌组织中的表达及临床病理学意义

目的:探讨泛素样蛋白D(Ubiquitin D,UBD)在哈萨克、维吾尔和汉族三民族食管鳞癌患者癌及癌旁正常粘膜组织中蛋白和m RNA水平的表达情况,并探究其临床病理学意义。方法:收集173例食管鳞癌患者癌和癌旁正常粘膜组织标本,其中包含维吾尔、哈萨克和汉族。采用免疫组织化学染色法和实时荧光定量PCR法检测UBD的表达水平,并结合患者临床病理特征及预后资料探究UBD与患者临床恶性表型和预后的相关性

学位

城镇化与生态环境耦合的时空格局及驱动机制

中国推进城镇化的速度持续加快,预计到2035年,中国的城镇化率将提升至71%～73%。推进城镇化进程已经成为释放经济发展的重要动力,但快速的城市扩张超过了当地的资源环境承载能

学位

城镇化生态环境协调发展社会网络分析空间溢出

CW公司制造总部中层管理者绩效考核体系优化策略研究

进入21世纪以来,人力资源在企业内部发展和外部竞争的过程中扮演着越来越重要的角色,充分发挥人力资源的积极作用对于企业持续生存发展具有着十分重要的意义,而绩效考核与管

学位

中层管理者绩效考核体系关键绩效指标

特征选择与模型可解释性在代谢综合征风险预测中的应用研究

目的:数据挖掘技术在健康体检大数据研究中展现了出色的性能,但在实际应用中仍然面临数据冗余及模型可解释性两大难题。研究以代谢综合征为切入点,分析与评价特征选择和模型可解释性方法在处理健康体检大数据冗余及预测模型难以解释中的应用价值。方法:收集乌鲁木齐市某健康体检机构近三年体检数据,进行删除、填补等预处理后剩余39134份。采用特征选择方法(RFE、m RMR、Lasso)进行特征筛选,基于特征子集构

学位

中小型商贸企业业务管理系统的设计与实现

随着互联网技术的快速发展,各行各业的信息化水平越来越高,中小型商贸企业更需要搭上信息化的发展快车,论文将企业的采购、销售、库存业务与信息化进行融合,使得各个部门管理

学位

业务管理供应商评价销售管理采购管理库存管理

基于降维的两样本均值检测

与本文相关的学术论文