论文部分内容阅读
面对基因组学、物理学、政治科学、经济学等众多领域日益增长的海量数据,人们越来越多地依赖计算机智能化地从海量数据中获取解决问题所需的有用信息。作为数据智能化分析的两种有效手段,数据相关性检测技术和维数约简技术受到广泛关注。相关性检测方法能够自动地发现数据集中变量间的相关关系;维数约简方法将数据特征从高维降到低维,降维后的特征更能体现数据的本质结构,并且降低了后续数据处理的计算代价。本文对数据相关性分析和维数约简的理论方法和实际应用进行了深入的研究,主要工作概括如下:1.提出了检测多元变量间相关关系的最大信息熵法。对于k元变量集合,该方法首先根据任意两个变量间的最大信息系数值来构造最大信息矩阵R,然后由R的正特征根来计算这k个变量间的最大信息联合熵H_R~k,最后用1-H_R~k来衡量变量间依赖关系的强弱。三维空间曲线上的仿真实验证明了最大信息熵能够检测三元变量间的一维流形依赖;此外,通过全球健康数据集的相关性检测实验,证实了该方法的有效性和可行性。2.提出了直接检测三元变量间一维流形依赖关系的最大全相关系数法。最大全相关系数的基本思想是:如果三元变量间存在某种相关关系,那么在它们的散点图上就能够构造一个特殊的3维网格,使得数据点在该网格上的全相关明显大于0。最大全相关系数就是通过具有最大归一化全相关的网格来定义的,并由此来评估变量依赖关系的强弱。利用动态规划思想,本文设计出了可以快速求解最优划分的3维网格,并以大量仿真数据集和真实数据集上的实验证实了最大全相关系数的通用性、公平性和有效性。3.提出了一种基于相似性传播的维数约简方法该方法基于原始特征间的相似性,利用相似性传播算法将原始特征进行聚类,再对每个类别中的原始特征进行权重组合得到新的特征(抽取特征),以达到维数约简的目的。该方法能够实现数据维数的自动约简,且不需要求解数据协方差矩阵的特征值和特征向量等复杂运算,保证了算法的计算效率。UCI公开数据集上的可视化和分类实验结果显示新方法的性能要优于二次规划特征选择(QPFC)、近邻保存嵌入(NPE)和自组织特征聚类维数约简(SCFC)等维数约简方法。4.提出了一种基于费希尔信息度量的随机近邻嵌入方法该方法将文本的词频向量看作统计流形上的概率密度样本点,利用费希尔信息度量计算样本点间的距离,从信息几何的观点出发,对t分布随机近邻嵌入进行改进,提出了费希尔信息度量随机紧邻嵌入,解决了面向概率密度样本的维数约简问题。20Newsgroups、TDT2和Reuters21578文本数据库上的2维可视化和分类实验证实了该方法能够很好地处理概率密度样本的维数约简问题,同其它方法的对比实验也显示了它的竞争力。5.提出了深度皮尔逊嵌入框架。提出了一种相关性结构保持的参数化维数约简框架,即深度皮尔逊嵌入(DPE)。DPE采用皮尔逊相关系数来衡量高维样本间的相似度矩阵与低维样本间的欧氏距离矩阵中行向量的相关度,并要求它们尽可能地负相关,以保证高维空间中越大相似度的样本对在低维空间有着越小的欧氏距离。MNIST、COIL-20、Extented Yale B和AR等标准数据集上的大量对比实验证实了DPE的有效性和优越性。