基于Canopy的高维样本相似性度量及分组加权t-SNE改进算法

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:jerryby001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据规模的增大和数据复杂度的增加,高维数据的处理技术要求越来越高。其中高维数据的降维对于实现分类聚类、时序预测和关联性分析等有着重要意义。高维降维技术一般包括线性降维和非线性降维两种,其中t分布随机邻域嵌入(t-distributed stochastic neighbor embedding,t-SNE)算法是一种应用较为广泛的非线性降维方法,它的原理是计算高维空间内样本对之间的联合概率并与低维空间内样本对的联合概率进行匹配,从而实现数据从高维空间到低维空间的映射。在目前的研究中,由于在该算法的实现过程中研究人员较少考虑高维空间内样本间的实际分布状态,即无论高维空间内样本相似程度如何,都采用同一种概率算法,这影响了低维映射结果的区分度,使得聚类效果结果不够理想。针对这一问题,本文提出了一种基于Canopy的分组加权t-SNE算法,该算法首先对高维空间内样本的分布情况进行分析,使用Canopy算法进行高维样本相似程度的度量,在此基础上将高维空间样本的相似程度分为高相似程度、适中相似程度和低相似程度三组,并分别进行自适应加权后再计算高维空间内样本点之间的高维联合概率,从而更准确地反映高维空间内样本间的相似程度,以达到更好的降维效果。为了验证基于Canopy的分组加权t-SNE算法的降维效果,分别在两个应用领域展开了实验分析。基于Canopy的分组加权t-SNE算法在有监督数字手写体奇异类样本上的降维对比实验结果显示,与其它降维算法及传统t-SNE算法的降维效果相比,Canopy的分组加权t-SNE算法有效消除了类簇不紧凑,样本交叉等问题。降维后性能指标显示,数字手写体的查全率和查准率均比传统t-SNE算法得到了明显改善。基于Canopy的分组加权t-SNE算法在无监督脑网络状态观测矩阵上的降维对比实验结果显示,与其它降维算法及传统t-SNE算法的降维效果相比,Canopy的分组加权t-SNE有效的消除了脑网络状态的交叉和散点等问题。降维后的性能指标显示,脑网络状态聚类的戴维森堡丁指数、邓恩指数与轮廓系数均比传统t-SNE算法得到了明显改善。由此可见,无论是对于有监督的分类问题还是无监督的聚类问题,本文方法都获得了更好的降维效果,为高维数据降维方法提供了一种有效的解决方案。
其他文献
如今,工业机器人技术迅速发展,应用领域更加广泛。在大多实际应用中,机器人的基座位置保持不变,一旦摆放位置不合适,机器人的运动轨迹会受到影响,导致操作低效和奇异,甚至存
近年来,关于跨国政策趋同的研究日益增多,但对这一现象的理解仍然有限。本研究探索应对粮食危机的现有和未来监管方法以及当代转基因生物技术面临的主要挑战。本研究着眼于跨
冷却塔风机作为冷却塔循环水系统中的重要机械设备,在整个系统中发挥着非常重要的作用。冷却塔风机运行时,会消耗大量的电能,其中大部分电能得到了有效利用,但同时也有相当一
利用太阳光进行光电化学分解水已被广泛认为是最有前途的制氢途径之一。光阳极在实现高效率的太阳能转换中发挥了重要的作用。BiVO4作为一种窄带隙(约2.4 eV)半导体,是一种比较
光系统II高分辨率晶体结构从原子水平上揭示了包括Mn4CaO5簇在内的蛋白复合体的结构,特别是一些重要的氨基酸它们可能在光合水氧化过程中有着重要的调控作用。其中D1蛋白中D1
锂钙硼酸盐因其优良特性具有广泛用途。硼酸盐作为化工原料广泛应用于生产生活的各个领域,如玻璃、阻燃剂、钢铁、油漆、陶瓷等行业,其单晶还可以作为非线性光学材料和高性能
随着环境问题的不断恶化,人们对清洁能源的要求越来越高。氢能因其高热值、无污染而备受关注。随着风能、地热能、潮汐能等清洁能源的大力发展,电解水制氢技术再次受到了人们
随着现代工农业的飞速发展,环境中的重金属排放量日益增长,重金属污染物进入水体通过参与复杂的水体生物地球化学循环,导致海洋植物所面临的生活环境日益严峻。潮间带作为海
据国家统计局官网发布的数据,2009年以来,长江经济带财政科技支出每年以10%以上的速度递增,2018年财政科技支出达到了2527.981亿元。但由于目前对财政科技支出效率的评价还未
高水平学术期刊往往具有严格审稿程序和流程,高水平期刊发表的论文也更容易获得引用,这使得在学术优先权竞争过程中,学者更愿意将自己的研究成果率先发表在高水平学术期刊。