纵向数据下一种基于鞅差散度的降维方法

来源 :上海师范大学 | 被引量 : 1次 | 上传用户:farzision
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
纵向数据兼有截面数据和时间序列的特点,在医学、生物学、经济学等领域极为常见.在纵向数据中,对同一个个体进行多次重复观测,其观测之间通常具有相关性,如何处理个体内部的相关性便成为纵向数据分析中无法逃避的问题.再者,随着科学技术的发展,大型纵向数据集的出现给纵向数据的统计分析带来了巨大的困难与挑战.本文提出的纵向数据充分维数折叠方法不仅可以保持数据内部的自身结构,而且不会损失自变量所包含的因变量的回归信息,是一种有监督降维的有力方法.本文基于鞅差散度提出了一种无模型的纵向数据充分维数折叠降维方法.当结构维数已知时,从理论上证明了该降维准则可以从总体上找到中心均值维数折叠子空间,达到时间和变量两个维度的降维.在样本给定时,将降维方法转化为带有约束的高维优化问题,理论上证明了中心均值维数折叠子空间的估计具有(?)-相合性.在算法上,通过引入Kronecker乘积假定,将带约束的高维优化问题转化为低维优化问题,从而利用成熟的非线性优化算法快速迭代求解.进一步地,提出了一种BIC型准则,根据数据自适应确定结构维数,并证明了结构维数确定的相合性.为了考察本文所提充分性降维方法在有限样本下的表现,本文考察了四个模拟例子:(1)平衡的带连续型响应变量的纵向数据;(2)非平衡的带连续型响应变量的纵向数据;(3)带有非光滑连接函数的纵向数据;(4)带离散型响应变量的纵向数据.模拟结果表明,不论是否满足Kronecker乘积假定,相较于文献中的降维方法而言,所提方法都能够更加准确地估计中心均值维数折叠子空间,同时计算速度具有明显的优势,而且在结构维数的确定上有着更高的准确度.最后,本文利用原发性胆汁性肝硬化数据进行实证分析,将自变量和时间点的维数均降到了1维.结果表明在0.05显著性水平下,碱性磷酸酶和凝血酶原时间与血清胆红素显著正相关,白蛋白与血清胆红素显著负相关,该结论与医学文献的结论一致.四个时间点上,仅第四个时间点与血清胆红素的关系是显著的,符合疾病的慢性特征.
其他文献
爱国主义精神作为民族精神的核心,是凝聚全国各族人民力量,鼓舞全体中华儿女锐意进取,共力助推“两个一百年”目标实现的巨大精神动力。在十九大报告中,习近平总书记指出“中国特色社会主义进入了新时代,这是我国发展新的历史方位。”爱国主义作为一个历史范畴,与时代发展同向同行。新时代对弘扬爱国主义精神提出了新要求。新时代究竟对弘扬爱国主义精神提出了怎样的新要求?实现新时代弘扬爱国主义精神新要求面临哪些主要挑战
随着CAS 39的发布,学术界再一次展开了对公允价值的相关问题的探讨研究。长期以来,我国普遍采用历史成本法作为计量方式,多年来,其在实践当中也暴露出了一些问题,急需一种更为先进的计量方式。公允价值计量模式是在这样的条件下,借鉴西方行业的结果。尽管经多年发展公允价值模式已经被认识,但是在应用层面,投资性房地产中的应用依旧不广泛。但是,从长远来看,经济一体化必将推动会计行业的国际化,以及计量模式的一体
党的十八届五中全会,首次概要阐释了新发展理念的内涵以及价值;党的十九大,再一次强调了落实新发展理念的重要性。新发展理念是习近平新时代中国特色社会主义思想中的一部分,也是党中央领导集体在深刻理解了社会主义建设以及人类社会发展的一系列规律以后,所提出来的治国理政思想。对习近平新发展理念进行深入的研究,结合中国发展的历史经验,可以进一步充分领悟中国经济社会未来的发展趋势,也能找到未来中国社会快速、全面、
城市商业银行经由城市信用合作社改造而来,是我国银行业的重要组成部分和特殊群体。2006年以来,随着监管政策的放开,城市商业银行纷纷走上跨区域经营的道路。跨区域经营有助于城市商业银行实现规模效应、降低经营成本和提高知名度,也有利于其市场化和地域多元化发展,提高整体竞争力。但由于城市商业银行“先天不足”,在跨区域经营中普遍存在管理能力较弱、人才储备不足、地缘劣势等问题,如何寻找规模扩张之外的精细化经营
AI(人工智能)时代的到来,使个人信息的保护在当今时代越来越重要。人们日常生活的衣食住行,都离不开网络中的个人信息,当今时代对个人信息保护提出了更高的要求。由于网络存储的无限性与永久性,使整个世界成为了永久记忆模式,信息主体曾经发布的或存储的个人信息被互联网默认保存,第三人可以在未来的任何时间在互联网中搜索到。这类信息可能会导致信息主体社会评价降低,可能会对信息主体今后的生活安宁带来影响,也可能是
近年来,随着人们生活水平的不断提高和个人财富的日益增长,人们的理财意识逐渐加强,导致股票市场的吸引力越来越大。但是与欧美等发达国家相比,我国的股票市场建立时间较短,在机制建设等方面发展地还不够成熟,最重要的一点是,我国股票市场的投资者仍然是以中小投资者即散户为主。而大部分散户不仅缺乏专业的金融基础知识,而且由于工作和学习的原因使得其在投资方面所花费的时间与精力相对有限,从而导致其在买卖股票的交易过
以公元纪年,从君士坦丁堡被奥斯曼土耳其军队攻陷算起,罗马帝国已经灭亡长达500多年,这个曾经不可一世的帝国留给后世太多的回忆和遗产,它们在世界历史尤其是文艺复兴的发展长河中发挥过启发性作用,作为帝国杰出成就之一的君士坦丁堡供水系统,经众多专家的实地考察与探究,已逐渐清晰地映入世人的眼帘。君士坦丁堡是罗马帝国的东都,也是地中海沿岸在地位、人口、财富等方面唯一堪比罗马的城市。君士坦丁堡地处色雷斯半岛最
面板数据(panel data)不同于一维数据中的时间序列数据与横截面数据,其构成为二维数据,若将一个个体不同时刻的时间序列数据看作一条记录,那么面板数据则指同时选取多条记录,即同时选取多个个体样本时间序列数据。从横截面方向来看,面板数据表示为多个个体样本在同一时刻的观测值,从纵剖面方向来看,面板数据却是时间序列。面板数据经常被作为经济学科领域中的研究对象,例如国家各省市在某段时间内的人口数量变动
国家为建设具有中国特色,且学术水平世界一流的大学,提出了“双一流”高校发展战略。长三角城市群有着优秀的创新能力,高校众多,汇集了丰富的高等教育和知识创新资源,是国内高水平高校知识创新主要集聚区。长三角一体化战略为创新要素流动,区域内高校协同创新,实现高校间优势互补、平台共建、信息共享提供了新机遇。基于国家战略的提出和“双一流”高校建设的时代要求,长三角“双一流”高校科研资源的配置水平和未来发展方向
天体源的天文测量产生了测量通量与时间之间关系的噪声时间序列流,然而与许多其他物理领域不同的是,天文数据中的大量且特定于源的时间间隔,是由昼夜反复出现的节奏序列的选择以及季节的限制自然产生。为了更加高效的对这些数据进行处理,需要在减少人工介入的情况下,对含有噪声、不规则采样数据采用更加准确的挖掘和分类技术。在其他具有庞大数据集的类似领域的应用中,人工神经网络已被证明对许多时间序列的分类和预测任务是有