非线性广义主成分分析方法

来源 :西北大学 | 被引量 : 0次 | 上传用户:planet0371
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着通信技术的不断升级,数字化转型的不断深入,经济社会产生的数据总量不断攀升,数据类型也日益丰富,高阶张量越来越频繁地出现在人们的视野中.在这样的时代背景下,数据压缩在统计研究领域受到广泛关注.在对国内外使用较多的数据压缩方法进行总结后,发现目前使用较多的数据压缩方法或是受限于模型的线性假设,或是不可显式表达,亦或是模型可解释性较弱.为了克服这些问题,本文在线性主成分分析方法的基础上,提出一种可显式表达且可解释的非线性数据压缩方法—非线性广义主成分分析方法(NGPCA).由于高阶张量的空间结构更为复杂,低阶张量的线性代数运算已不再适用,因此,本文兼顾低阶与高阶情形,分别介绍了低阶非线性广义主成分分析方法(LO-NGPCA)及高阶非线性广义主成分分析方法(HO-NGPCA).具体包括以下两部分工作:一、针对于低阶张量,本文设计了LO-NGPCA方法,并以二阶数据为例,对方法进行了说明.该方法在主成分分析方法的基础上,引入激活函数对投影后数据进行映射;同时,该方法可以从网络模型角度获得直观解释,它通过在特定位置引入形变子层以改变压缩方向,最终实现对二阶张量两个维度的同时压缩;此外,本文设计了该模型的“低阶形变反向传播算法”(LO-DBP),进而对参数进行估计.最后,数值实验基于ORL数据库的公开数据集,其结果表明:算法具有收敛性且在同等或更为苛刻的压缩条件下,LO-NGPCA方法的压缩性能优于线性主成分分析类方法,包括主成分分析、二维主成分分析及广义主成分分析.二、针对于高阶张量,考虑到本文所设计的方法不会再随着阶数的增长而发生本质的变化,故以三阶张量为例对HO-NGPCA方法进行说明.本文在介绍高阶张量相关运算的基础上,根据所选取的压缩方向集的差异,分别介绍了深度为1及深度为的HO-NGPCA方法.不仅阐明了两种不同深度的HO-NGPCA方法的内在联系,还构建了对应的网络模型对方法予以直观解释,并基于“高阶形变反向传播算法”(HO-DBP)进行参数估计.最后,通过数值实验,分别说明了HO-DBP算法的收敛性及HO-NGPCA方法在压缩性能方面的优越性.
其他文献
心肌梗死(Myocardial Infarction,MI)是由心脏冠状动脉供血区急性或持续性缺血缺氧所导致的一种严重的心血管疾病。若未能得到及时诊治,会造成患者心肌细胞大面积死亡,从而引发不可逆的损伤,严重者甚至导致死亡。因此,MI及时准确的诊断是至关重要的。心电图(Electrocardiogram,ECG)是临床上诊断心肌梗死常用的辅助工具之一,MI发作时在心电图上的主要表现为ST段异常、T
学位
在大数据环境下,由于单台计算机的存储、计算能力和安全隐私等问题,传统的集中式优化方法可能不再可行,因此可以利用多台机器的优势对大型数据集进行存储、计算和分析.在分布式环境下,为了降低计算复杂度和通信成本、提高算法收敛速度,本文基于共轭梯度法提出了两种分布式优化算法,分别用于求解线性回归模型和Logistic回归模型的优化问题.具体地,包括以下两部分:(1)针对大型线性回归模型的优化问题,在分布式环
学位
碳达峰和碳中和的目标一经提出,相关的绿色理念即成为讨论的焦点。房地产企业一向对能源消耗较大,大量的碳排放也给环境产生沉重负担。在此背景下,房地产企业需进行绿色转型。然而较大的融资约束、高昂的建设成本等都制约着企业开发绿色建筑的动力。作为绿色金融体系中的一部分,绿色债券是使资金流向绿色环保项目的重要金融工具,也是引导房地产企业发展绿色建筑的关键途经。本文从文献研究和理论分析出发,梳理了绿色建筑、绿色
学位
如今全球经济一体化趋势不断增强,国家彼此之间的竞争压力越来越大。为了全面推进科技强国的贯彻落实,我国必须建立符合自身实际需求的科创企业和产业链。由于技术创新型企业所处行业风险较高、前期开发投入较大,需要足够的资本作为后备力量保障其不断发展壮大。因此不管是从国家战略发展还是现实需要来看,针对科创服务层面的不足,资本市场应该予以有效弥补。正基于此,习近平总书记于二零一八年十一月宣布在上海上交所成立科创
学位
经过多年发展,房地产行业已成为我国国民经济支柱行业。然而,房地产行业存在着以高杠杆扩大企业规模,获取市场份额。“借新偿旧”、“借短还长”运营成为部分房企运营常态。2020年8月,住建部与央行共同发布“三道红线”融资新规。自此拉开了此轮房地产强监管的序幕。在此背景下,大体量上市房企华夏幸福2021年初突然出现债务违约,违约金额高、影响大,具有典型性和代表性。本文以华夏幸福作为案例,运用文献研究法、案
学位
计算机断层扫描(Computed Tomography,CT)技术可以对胰腺器官的位置、形态和组织等信息清晰成像,是病灶准确定位、医生定量分析及提供解剖学结构研究的重要前提。通过计算机高效的影像处理能力,精准高效的从CT影像中分割胰腺器官,不仅可以辅助临床疾病诊断、更对肿瘤消融手术的制定有着十分重要的意义。本文通过分析临床医生认知CT影像胰腺器官的特点,从2D分割算法和3D分割算法两方面进行研究,
学位
在大数据时代,发现高维数据存在的潜在信息,去除冗余特征,获得有效的低维表示,变得极其重要。非负矩阵分解(NMF)将原始数据分解为基于部分表示的基矩阵和有效低维表示,具有非负性和强解释性等优点,被广泛应用于高光谱解混、聚类、人脸识别与分析等领域。基于对现有NMF算法的研究,判别式非负矩阵分解(DNMF)解决了同一标签映射为单个点的问题,可以获得更有效的低维表示。因此,本文基于DNMF提出两种改进算法
学位
随着境外监管政策趋严以及境内资本市场逐步完善,越来越多的红筹企业纷纷谋求境内上市,2018年以前,红筹企业想要在境内上市,大多选择先私有化退市(已在境外上市的红筹企业),后拆除红筹架构,把控制权转回国内并通过直接发行股票、分拆上市或借壳上市等方式在境内上市;直至2018年3月,国务院办公厅转发《证监会关于开展创新创业企业境内发行股票或存托凭证试点的若干意见》,该政策支持创新创业企业选择直接发行股票
学位
近年来,为了健全国有企业的中长期激励机制,国家出台了一系列支持和指导国有企业实施股权激励的政策文件,意在提升国有企业董事、高管和核心骨干成员的工作积极性,焕发国有企业的活力和创造力。在国家政策的指导下,近五年实施股权激励的国有上市公司数量形成持续增长的势头,公司数量快速实现了从2016年18家到2021年92家的突破。然而,尽管如此,相比于我国一千家以上的国有上市公司总数,实施股权激励的国有上市公
学位
从统计视角,神经网络技术可看作是一种统计模型估计手段,其已被成功用于解决非参数回归模型的估计问题.然而,部分线性模型的神经网络估计方法还未得到系统性的研究.且现有的基于传统神经网络的非参数回归模型估计方法存在可解释性差且同时概括复杂数据的全局趋势和局部变化的能力有限的问题,将其直接用于估计部分线性模型的整个回归函数并不是一个完美的方案.此外,虽然神经网络技术已得到广泛实际应用,但在理论层面其仍需进
学位