【摘 要】
:
概率主成分分析模型(PPCA)是基于正态分布的概率潜在变量模型,是针对向量型数据的概率维数约简方法。为将PPCA应用于矩阵型数据,必须先将数据拉直为向量,但通常拉直后的向量型数据维数非常高,PPCA会遭遇维数灾难。因而矩阵变元概率主成分分析模型(BPPCA)被提出,BPPCA模型是在PPCA模型的基础上,采用分离协方差的形式,将其做双边推广的概率模型。此模型针对矩阵型数据直接进行双边降维,克服了维
论文部分内容阅读
概率主成分分析模型(PPCA)是基于正态分布的概率潜在变量模型,是针对向量型数据的概率维数约简方法。为将PPCA应用于矩阵型数据,必须先将数据拉直为向量,但通常拉直后的向量型数据维数非常高,PPCA会遭遇维数灾难。因而矩阵变元概率主成分分析模型(BPPCA)被提出,BPPCA模型是在PPCA模型的基础上,采用分离协方差的形式,将其做双边推广的概率模型。此模型针对矩阵型数据直接进行双边降维,克服了维数灾难的问题。然而,PPCA和BPPCA均是基于正态分布的概率模型,正态分布假设下的模型对于异常值较敏感。当数据中含有异常值时,PPCA和BPPCA这些基于正态分布假设下的模型可能存在较大估计偏差,降维效果不理想。而学生t分布与正态分布类似,但学生t分布的尾部相较于正态分布的尾部更厚,且学生t分布包含自由度,因而t分布建模在实际运用中已被证实具有更为优异的表现。因而本文基于矩阵变元t分布,开发出稳健矩阵变元概率主成分分析模型(tBPPCA),并提出四种极大似然估计算法:ECME、ECM、AECM1和AECM2来拟合该模型,稳健化存在的模型,拓宽其适用性。ECME算法和ECM算法是类似的,其区别只在于ECME通过极大化观测数据的似然函数更新自由度,而ECM极大化期望的完全数据似然函数更新自由度。AECME1算法和AECM2算法是类似的,其区别只在于AECM1通过极大化观测数据的似然函数更新自由度,而AECM2极大化期望的完全数据似然函数更新自由度。模拟实证研究表明:四种算法ECME、ECM、AECM1和AECM2对初始值均不敏感。当数据中含有异常值时,tBPPCA模型比BPPCA模型的估计精度更高。人脸数据实证表明:针对矩阵型数据,tBPPCA和BPPCA模型降维错误率差异不大,但当数据被污染,含有异常值时,tBPPCA错误率明显低于BPPCA,随着异常值比例的增大,BPPCA模型的错误率明显变大,但tBPPCA模型几乎不受异常值的影响,相比之下,tBPPCA对异常值不敏感,比BPPCA模型更稳健。
其他文献
随着车载GPS设备的广泛应用,越来越多的历史轨迹数据变得可用。从轨迹数据中学习司机们的选路偏好,进行基于轨迹的路径规划成为热门研究话题。现有工作中直接选择流行轨迹作为推荐路径的方法面临实际轨迹数据高度稀疏和不均匀的困难,而利用轨迹数据建立一个加权图进行路径搜索的方法面临司机选路多重偏好估计的困难。最近有研究提出采用图神经网络(Graph Neural Network,GNN),将最短路径问题表示为
X型旋流压力喷嘴是一种新型内部结构的旋流压力喷嘴,由于其内部独特的X型旋芯设计,使其具有较好的雾化性能,近些年在喷雾降尘领域被广泛采用。长期以来,工程人员只能依靠繁琐的实验来获得喷嘴雾化特性及降尘效率等参数,而一般工程现场不具备开展雾化特性及降尘效率测量的仪器设备,给工程设计和喷雾降尘现场应用带来很多不便。针对上述问题,本文采用理论分析、实验测试及现场应用的方法,对X型旋流压力喷嘴雾化特性和降尘效
为了促进绿色节能环保产业的发展,开发环境友好型材料刻不容缓,其中亲水性材料在净化环境和防雾等领域有着广泛应用,越来越受到人们的关注和研究。环境友好型的无机纳米TiO2-
丙型肝炎病毒(hepatitis C virus,HCV)是一种具有包膜结构的单股正链RNA病毒,属于黄病毒科肝炎病毒属,主要感染肝细胞,具有以多种方式逃避宿主免疫反应的能力,是引起丙型肝炎的病因。自1989年首次命名HCV以来,全球范围内已有超过1.8亿人感染HCV,每年新增感染病例3.5万人,HCV感染已成为世界范围内严重的公共卫生问题。HCV的主要感染途径是血液传播、母婴传播和性传播等。HC
目的建立新西兰兔颈部动静脉内瘘(arteriovenous fistula,AVF)模型,研究丹参注射液联合低强度激光局部血管照射对AVF并发症的防治作用,并探究其作用机制,为指导临床提供有力的理论依据。方法建立28只健康新西兰兔动静脉内瘘模型,随机分为4组,每组7只。1、对照组:内瘘手术后,无任何处理;2、吻合口照射组:内瘘手术后,于缝合皮肤前立即行局部吻合处血管照射15min,功率密度50mw
由于地下水的超采,已经在沧县地区造成了一系列的环境地质问题,如形成降落漏斗、地面沉降、地下水污染等。通过确定地下水控制性管理水位来控制地下水的开采,实现沧县地区地
白垩纪是地质历史中的一个特殊时期,期间发生的构造-气候事件对当今环境格局的形成具有重要意义。前人对白垩纪气候变化研究主要依托海相沉积物,来自陆相沉积物的研究相对较
二阶椭圆偏微分方程中边值问题一直是学者们非常关注的问题之一,其中狄利克雷问题被Serrin等人已基本解决,但是Neumann问题仍然是大家极力想解决的问题,尤其是平均曲率方程的Neumann边界问题的梯度估计,目前研究的结果很少,本文利用极大值原理解决一类平均曲率方程的Neumann边界问题的解的梯度估计,主要由两个部分组成:第一部分主要利用极大值原理和Hopf引理证明了一类Laplace方程的N
苏里格地区下古生界蕴藏着丰富的油气资源,近年来在马家沟组马五_5亚段发现了丰富的天然气资源,使其在油气勘探上的地位越来越重要。虽然目前对马五_5亚段的研究已经取得了较多成果,但鉴于其良好的的油气资源勘探前景,有必要对其开展更加深入的研究。本文以苏里格南部地区奥陶系马家沟组马五_5亚段为研究对象,以石油地质学、沉积学、古生物地层学、岩相古地理等理论为指导,结合实测地层剖面、岩心、镜下薄片、分析测试等
红河油田位于鄂尔多斯盆地西南部镇原—泾川地区,构造上主要分布在盆地西南缘三角洲前缘砂体中,为自生自储式成藏组合,勘探潜力大。其中主力油藏延长组长8段受沉积、成岩作用