张量数据的概率降维方法与特征表达

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:wangsong1008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类已经进入大数据时代,图像(视频)作为人类对外部世界感知与认知的信息载体,在大数据中占有举足轻重的地位。随着图像(视频)采集技术的发展,图像的分辨率越来越高,承载的数据量也越来越大,如何对这些数据中包含的有价值信息进行有效降维与表示是模式识别、图像处理和计算机视觉等领域中非常重要的研究课题。  对于图像、视频等张量数据,传统的处理方法常常是将数据向量化,但向量化过程破坏了高维数据中的结构信息,还有可能产生维数灾难。而直接处理张量类型的数据,即可以保留高维数据的空间结构信息,同时由于张量算法的独特性,直接通过张量数据进行学习还可以有效控制优化问题中参量的个数。基于上述考虑,本文在贝叶斯框架下针对张量数据的降维和表示问题开展研究。  针对传统主成分分析(Principal Component Analysis,PCA)类降维方法的局限性,做了以下几方面的研究工作:  第一、提出了一种基于L1范数的二维概率PCA(L1-2DPPCA)降维方法。传统PCA和概率PCA(PPCA)模型都是针对向量数据且数据噪声满足高斯分布的假设,当数据集中存在离群点时,传统方法找到的主方向会严重偏向离群点,偏离数据集真正的主成分。针对这一问题,本文根据离群点的概率分布特性,假设数据噪声服从拉普拉斯分布,提出了针对二维数据的概率降维模型L1-2DPPCA。在模型求解时,由于拉普拉斯分布中对应的L1范数是不可导的,因此可以将拉普拉斯分布近似表示成无限个高斯分布求和的形式,即混合高斯分布。混合高斯分布中的权值系数做为新的隐变量,该隐变量的理论特性决定其可以看作离群点的检测器。实验证明,该模型具有良好的数据降维效果对离群点具有更好的鲁棒性。  第二、提出了一种混合双向的二维概率主成分分析模型(mixB2DPPCA)。传统PCA和PPCA类方法都是一种全局的线性降维模型,对于复杂的数据集,例如有光照、姿态和表情变化的人脸数据集,全局线性降维无法有效的表示这些变化。因此本文提出一种概率框架下的混合双向二维主成分分析模型(mixB2DPPCA)。该模型是通过利用混合高斯分布的形式建立一个分段线性的降维模型,其中每个高斯分布都对应着一个二维线性降维子模型。因此该模型不仅可以利用二维数据的结构信息,而且还可以通过混合高斯分布的特点对给定的数据集预先进行“软”聚类,以提高特征提取的准确性。  第三、提出了高阶张量数据的向量化概率降维模型。对于高阶张量数据,经典的降维方法都是先将张量数据向量化,然后应用向量的降维方法或者利用张量的Tucker分解,这样会破坏原始张量数据的关系结构,或降维后得到与原数据同维的低阶张量,后续应用中难以使用经典的数据分析方法。针对这些问题,受PCA降维模型的启发,本文提出了张量数据的向量降维模型,该模型将高阶张量数据表示成若干个基张量的线性组合,以组合系数作为原始张量的降维表示。模型求解阶段,为了减少模型参数,降低由此带来的存储量和计算负担,假设基底张量满足CP分解的结构,然后利用EM算法对模型进行求解。实验表明,该模型在利用较少的参数下,可以得到更好的识别结果。  针对基于数据学习的特征表示方面,做了以下工作:  第四、针对现有非参数贝叶斯技术的字典学习方法,本文提出了一种利用Beta过程对张量字典进行求解的方法,这种非参数的贝叶斯技术允许噪声的方差是未知的或是非平稳的。文中首先给出了张量字典学习的分层结构,然后利用吉布斯方法对分层结构中的参数进行采样。由于该张量字典是直接在原始张量数据上学习得到的,可以充分利用原始张量数据的结构信息,得到具有分离性的结构字典。视频重构和图像去噪的实验表明了张量字典的有效性和可行性。  第五、经典的RBM各层数据之间是一种向量形式全连接的神经网络结构,当应用到高阶张量数据时,向量化会破坏数据的内部结构,丢失数据中的关系信息,而且由于中间层的全连接性,使得参数的个数增长过快,需要更多的存储空间和计算量。针对这一问题,本文提出具有Tensor Train(TT)结构权值层的张量受限玻尔兹曼机。该模型在保证不影响RBM效果的同时大大降低了中层的自由参数个数。通过调节TT分解的秩,可以得到相同大小的不同特征,使得模型更具有灵活性。
其他文献
本文是数据挖掘技术在天气预报中有针对性的应用。本文收集、整理并分析了大量降雹、沙尘以及降水天气资料。首先整理分析了近年从巴盟、包头及呼市各防雹办收集的降雹及雹情
随着计算机系统中商用部件性能的不断提高和价格的不断下降,使得具有良好可扩展性和高性价比的集群系统在高性能计算中的地位越来越重要。应用于高性能计算的集群系统中存在
随着互联网的飞速发展,XML以其强大的数据表达能力以及简单、开放性、可扩展等优点而逐渐成为互联网上信息发布和数据交换的事实上的标准,因此对XML数据进行有效地管理和查询
网络管理的目标是保证一个网络可靠并高效地运行。网络故障管理是网络管理的主要功能之一,如何准确、高效地进行故障诊断及推理是故障管理的核心问题。本文针对由多校区局域网
数据挖掘是数据库最活跃的领域之一。由于其广泛的应用背景和现实意义,数据挖掘技术的研究和应用都获得了突飞猛进的发展,在国内外的学术界和信息产业界备受关注。 数据挖掘
随着网络技术的发展,网络结构日益复杂,入侵攻击也越来越猖獗。入侵检测系统(IDS-Intrusion Detection System)作为防火墙技术必要而有力的补充,近年来成为网络安全研究的热点。
本文以工程代码自动生成为目标,以可视化建模为手段,研究软件体系结构的工程化应用.其核心是软件体系结构描述语言(Code-Generation Supported Architecture Description Lan
人们现在可以从万维网中获得各种各样的信息,但是这些信息都是高度分散、结构各异的。Web数据的这一特点使得网站的管理者花费大量的财力和精力用于网站数据的维护。而另一方
随着计算机网络的不断发展以及电子化时代的来临,数字签名已经成为一项不可或缺的关键技术.然而,随着时间的推移,目前提出的多种数字签名方案大都不同程度地出现了一些安全隐
随着黑客攻击手段和技术的日益复杂化、更具隐蔽性和分布式发展,入侵检测在大规模分布式系统中的应用越来越受到关注,分布式系统的异构性和自治性以及传统入侵检测系统自身的