高维数据统计学习及其在人脸识别、微阵列分析中的应用

来源 :中山大学 | 被引量 : 0次 | 上传用户:liongliong439
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本论文的主要工作包括: (一)基于极大间距准则(MMC)的不相关判别分析(UDA)方法模式分类中,判别向量的统计不相关性是一个非常有用的性质。统计不相关的特征包含有最小的冗余信息,而经正交特征向量集投影的特征空间因可能包含一些冗余信息而导致分类性能下降。本文提出了一种新颖的不相关判别分析(UDA)方法。首先,我们对高维数据进行降维处理,讨论了利用奇异值分解得到的两种降维方法:一种是对总的散度矩阵投影;另一种是对类问散度矩阵投影。并且证明了对总的散度矩阵投影可以保持各类样本之问的线性可分,而对类间散度矩阵投影可以保持各类均值向量之间的距离不变。其次,基于具有较强鲁棒性、稳定性和有效性的极大间距准则(MMC),提出了一种不相关判别分析(UDA)算法:该算法不需要考虑数据维数和样本数目的限制,克服了经典LDA的局限。由于不是所有的判别向量都是有用的,在判别向量选取阶段,我们定义了一个优化判别子空间去限制判别向量的数目,从而建立了一种完全自动化的方式验证参数。 (二)基于二维极大间距准则(MMC)的特征提取在人脸识别中所处理的人脸图像数据都是二维的,如果要使用一维判别分析方法,就必须把人脸图像矩阵转化为向量,这种转化会带来两个问题:高维小样本问题和图像结构信息丢失问题。近年来,二维判别分析正是基于这两点而成为了人脸识别中的一项新技术。本质上,二维判别分析是基于图像的行或列去找判别向量,从而挖掘出图像的局部特征,但是从整体上来看,二维判别分析得到的投影矩阵仍然可能含有冗余信息。而一维判别分析是基于整幅图像去找判别向量,考虑的是全局特征。本文结合二维判别分析和一维判别分析的优势,提出了一个基于两个处理阶段的人脸识别框架:“(2D)2MMC+LDA”。第一阶段,提出了一个二维双向特征提取技术:(2D)2MMC。(2D)2MMC可以看成是MMC方法在二维数据上的直接推广。第二阶段,在(2D)2MMC的降维子空间里运行LDA。 (三)基于奇异值分解(SVD)的显著常量双聚类方法双聚类是对微阵列数据进行分析的一个重要途径。使用双聚类算法,我们可以识别出微阵列中的局部结构模型:在特定实验条件下,部分基因具有一致表达。这种模型可能对我们理解不同生理状态下的生物过程提供关键的线索。 本文将网答,在特定条件下,哪些基因表达上调,哪些基因表达下调,哪些基因不显著等问题。这些信息能为我们提供许多有价值的基因网络调控信息。通过特殊的数据预处理,寻找特定实验条件下的表达上调基因组或表达下调基因组可以通过检测显著常量双聚类来实现。本文介绍了一种新颖的思想,以SVD为框架,把挖掘基因表达数据中的常量双聚类问题转换为两个全局聚类问题。在全局聚类问题中,应用统计方法,我们估计了分层聚类里的剪枝阈值。我们的方法能识别出重要的相互调控基因组,并且能有效的把相同类型的样本聚类在一起。在三个公共数据库(Human Tissues,Lymphoma和Leukemia)上的实验结果展现了良好的可视化特征和解释能力。 (四)基于奇异值分解(SVD)的相关双聚类方法一般地,两个基因的相关性是基于所有的实验条件来度量的。但当我们仅对部分实验条件感兴趣时,这种相关性的求法显得不恰当。另外,目前大多数双聚类算法仅去寻找正相关的双聚类。然而,生物学家认为不仅要识别包含正向相关,也要识别包含负向相关基因的双聚类。本文定义了一类更加广泛的双聚类类型一相关双聚类,这种类型具有更直观的生物解释。基于这种新类型,我们定义了一个新的得分公式对其评价。接下来我们利用奇异值分解的两个矩阵与原矩阵之间的关系,把识别相关双聚类问题转化为在两个分解矩阵上寻找可加模型的问题。本文提出的算法得到的双聚类的特点是允许任意位置、可以重叠,而且是内包最大的。该算法在人类器官数据库上显示了良好的生物意义。我们将该算法与一些著名的双聚类方法(OPSM,ISA,SAMBA和CC)应用于酵母数据库上,并比较它们的处理结果,我们所提出的算法得到的双聚类有更高的比例是高度显著丰度的。
其他文献
在高中历史教学中,要求历史教师要在传授知识的基础上,培养学生的人文精神,以使高中学生树立正确的人生观、世界观以及价值观,并不断提升自身的道德修养,从而实现综合素质人才的培
互联网企业凭借不断发展的互联网技术逐渐向传统金融领域延伸,不断瓜分着传统商业银行的市场份额.作者从全面认识、正视冲击、大数据、创新服务和创新产品等五个方面,对商业
本文第一部分介绍了强Gorenstein n-平坦模和强Gorenstein n-FP-内射模的概念,并在右n-凝聚环上研究了这两种模的相关性质.第二部分讨论了强Gorenstein n-平坦维数和强Gorenst
数学是一门小学必修的基础课程,它贯穿于学生学习生涯的始终。基础教育初级阶段是培养孩子创造力、想象力的重要阶段,也是学生通过学习数学培养逻辑思维的主要时期。因此,如何在
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
《国家基础教育课程改革纲要》中,强调学生通过实践,增强探究和创新意识,学习科学研究的方法,发展综合运用知识的能力。为了把纲要精神真正落到实处,使学生在学习知识的同时,提高动
本文首先分析了传统的模糊神经网络存在的缺陷,改进了学习算法,提出了将误差与学习率分层,协同调整的层递式BP神经网络。接着,联合层递式BP神经网络,将模糊神经网络的逻辑推
本文主要研究的是一个被动标量粒子受其周围游动物体的影响而产生了位移,类比热扩散模型,通过分析目标微粒的总体位移来计算微粒的等效扩散系数,从而定量描述了该设置下的混合运
随着计算机技术的普及和应用的日益广泛,细分方法在近年来已经成为计算机辅助设计(CAD)和计算机图形学(CG)领域内的一个国际研究热点.近三十年来已有多种细分方法被相继提出,然
美国的布鲁巴克认为:“最精湛的教学艺术,遵循的最高准则就是让学生自己提出问题,自觉学习。”在新课程标准中也提出“以学生的终身发展为本”的理念,可见让学生学会自觉地学习是