数据的约束性低维表示及其应用

来源 :浙江大学 | 被引量 : 0次 | 上传用户:claverchou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息时代的蓬勃发展给人们创造了无限机遇,并深刻地改变了以往的生活和交流方式,但同时作为各类应用中重要表达载体的海量数据给机器学习、数据挖掘和计算机视觉等领域带来了各种严峻挑战。数据爆炸式的增长伴随着存储空间和计算资源的需求与日俱增,尤其是许多类型数据的表征维度非常高并含有冗余信息,如网页文本、基因表达和图像视频等等。这迫切需要新的方法和技术挖掘数据的低维潜在结构特征,降低数据处理的时空复杂度,节省计算开销。本文主要研究数据的约束性低维表示,探讨如何恰当地反映数据的本征结构,从而有效提高后续学习任务的性能。为此,本文从不同的角度提出多种新的学习方法应用于不同的场景。具体而言,全文的主要贡献概括如下:  研究联合聚类和谱聚类中的约束性数据低维表示问题,分别提出一种关系多流形联合聚类方法(RMC)和一种基于复合流形的局部判别谱聚类方法(SCCL)。RMC针对联合聚类中难以发现多类型关系数据(如样本数据和特征数据)真实流形的问题,基于对称非负矩阵三分解利用复合流形约束最大程度地逼近多类型关系数据的真实流形;该方法通过学习凸包中的一组候选流形的线性组合形成复合流形,充分考虑多样化流形提供的互补信息,恰当地估计关系数据的真实流形,有利于学习更具信息量的低维数据表示。SCCL基于传统的谱聚类在利用复合流形近似数据的真实流形的同时考虑数据的判别约束信息,较大地提升了谱聚类的性能。在网页文本、手写体数字字母、物体图像、生物信息表达和人工数据上的成功应用表明了两种方法均能发挥各自的优越性能。  研究基于非负矩阵分解的约束性数据低维表示,在线性回归模型的基础上考虑数据的局部结构约束和先验知识,提出局部约束性A-最优非负投影方法(LCA)。该方法的特点在于:1)将系数变量协方差的迹看做非负矩阵分解的正则项;2)当高维非负数据被投影到低维子空间时,相应的局部几何结构可通过数据点的邻居块得到较好地保持。3)通过辅助矩阵将作为先验知识的少量监督信息融入到子空间学习中,有效地指导低维数据表示的学习。实验部分将LCA应用于人脸图像、手写体数字字母,以及网页文本,结果证实新方法可以获得比其他方法更令人满意的效果。  研究基于概念分解的数据约束性低维表示,针对传统的概念分解和局部概念分解不能在非线性空间中反映数据几何结构的问题,分别提出流形核概念分解方法(MKCF)和基于图的局部概念坐标分解方法(GLCF)。两种方法均通过在变形再生核希尔伯特空间里通过流形核学习得到流形自适应核,反映非线性空间里数据的局部几何流形。这样,投影到低维空间里的数据表示能够很好地保持原始数据的局部结构特征。MKCF直接基于概念分解进行流形核学习;而GLCF还利用局部坐标编码考虑局部稀疏约束,即每个数据点仅与少量的锚点足够接近,且每个潜在概念与相应的数据点尽可能接近。在网页和医疗文本、人脸和物体图像以及基因表达上应用这两种方法做聚类分析的结果很好地体现了新方法的优势和有效性。  为了求解上述问题中出现的一系列目标函数,文中针对性地采用了乘数更新算法、广义变量更新算法、谱分析、熵镜像下降算法和坐标下降算法等优化方法。此外,文中对所提出的几种新方法进行了时间复杂度分析。
其他文献
数据库(database,简称DB)已经广泛地应用到人们的生产和生活中,它可以高效的支持结构化数据的存储和查询,然而它需要用户了解数据库底层的模式知识和掌握结构化查询语言,这对于没有
随着web2.0的兴起和社会网络的迅速发展,人们以网络为媒介发表自己对某个事件或事物的评论和看法。产品评论作为最重要的情感信息来源,一直被学术界广泛使用。如何挖掘这些产品
目前,以智能手机为代表的高能力移动终端得到了迅速发展,在不久的的将来,移动终端将成为造成Internet数据通信的主体,所以移动终端以及移动通信环境将会成为未来大量计算应用的基
本论文主要是对分布式存储技术的原理进行了深入的分析,并对分布式数据库的设计与实现过程的进行了深层次的研究,在设计出空间数据表逻辑结构的基础上,对空间数据表进行了合
随着经济的飞速发展,银行业正在受到了前所未有的改变,银行若要立于不败之地,强大的软件开发技术,是支撑银行的一个重要保证。银行由于行业的特殊性,保证软件系统的安全,才能更好的
企事业单位网络中安全防御设备产生的海量日志具有多样性、高冗余度、看似“分散独立”却存在关联性的特点,现有传统的独立集中式日志分析平台计算能力有限,无法满足日志海量、
随着科技与经济地快速发展,汽车也被越来越多的人所拥有。虽然汽车的普及能够极大地提高人们的生活质量水平,但是其带来的交通安全问题也日益严峻,对人们的生命财产安全产生了极
随着移动Web的迅速发展,移动终端上的应用开始向多元化发展,以完成更加丰富和复杂的功能。由于本地应用的局限性,移动Web应用开始普及。人们将目光转向了移动混合应用,通过中
近年来,随着互联网的迅猛发展和移动设备的大量普及,尤其是大数据时代的到来,越来越多的数据需要处理,其中文本数据占据着越来越大的比重,如何对大规模文本数据进行高效地存储和索
随着云计算技术的迅猛发展,瘦终端系统将得到越来越广泛的应用,特别是当前手机、平板市场的跳跃式发展,瘦终端系统将依托云计算技术平台获得更多的机会,因此瘦终端协议的研究