【摘 要】
:
自上个世纪以来,随着计算机技术的飞速发展,人们可以更好的处理复杂数据,与此同时,高维数据分析技术也蓬勃发展。高维数据的本征维数估计问题研究,在高维数据处理领域中有着
论文部分内容阅读
自上个世纪以来,随着计算机技术的飞速发展,人们可以更好的处理复杂数据,与此同时,高维数据分析技术也蓬勃发展。高维数据的本征维数估计问题研究,在高维数据处理领域中有着重要的地位。对于高维数据处理领域,本征维数的寻求具有重要的意义。在降维方法中,本征维数是一个需要我们去估计的未知量,准确的估计出高维数据的本征维数,对接下来的降维处理问题有着重要的指导意义。并且,在数据处理过程中,准确的本征维数估计对选取合适的邻域大小有很大的帮助,可以避免“维数灾难”。本文提出一种新的方法——基于MLE算法的本征维数估计算法。大多数情况下,数据间的近邻关系能充分的反映数据的局部几何特征。MLE(Maximum Likelihood Estimation)估计方法就是通过建立关于近邻间距离的似然函数,从而得到本征维数的估计值。传统的MLE方法存在两点不足:一是对同一个邻域内的不同样本点所估计出的本征维数值,只是简单的求均值作为该邻域的本征维数,受奇异值的干扰较大;二是在选取K近邻时,采用传统的欧氏距离,容易出现越层现象。针对以上不足,本文采用邻域平滑(Neighborhood Smoothing)方法替代原来的均值方法,求出更加可靠的本征维数值;在选取K近邻时,采用测地线距离代替欧氏距离,以找到真实的K近邻点。本文在模拟数据库和真实数据库上对该方法进行了实现,通过实验证明了改进后算法的可行性和有效性,文章最后对算法的实验结果进行了分析,实验结果表明,这种新的方法是有效的,可以估计出更为可靠的本征维数值。
其他文献
随着高校招生规模的不断扩大,实验教学工作越来越繁重,实验课的安排及管理越来越复杂。目前高校的实验管理工作及信息处理基本是基于有线网络实现,甚至存在人工管理的方式,因此实
无线传感器网络是由大量密集部署在监控区域中的智能传感器节点以AdHoc方式组成的网络应用系统。虽然已经提出许多适合Ad Hoc网络的路由协议,但由于传感器节点是硬件受限设备
掌纹作为一种生物特征,具有数据量大、通用性强的优点,在各个领域均有广泛的应用前景。在刑侦领域,高分辨率脱机掌纹研究具有十分重要的理论意义和现实意义,是国家“十一五”
数字皮影表演平台是将民族艺术皮影戏用数字艺术的形式表现出来,为了能给其提供一个稳定、可扩展的运行环境,采用了集群系统解决方案。负载均衡是集群系统的核心技术,它负责均衡
“宽频带”和“非线性”是强激光科学技术领域中的两大核心关键技术,而自聚焦是其中最主要的非线性效应之一,它是使光束质量变坏和限制激光器输出功率的主要因素。宽频带激光脉
不可控剩余负荷的准确预测是微电网能源管理实现有效控制的基础,对于电力系统的可靠性、安全性和可持续发展都有着显著影响。随着电网技术的发展和微电网的出现,分布式能源得到了有效的利用。然而,不可控微电源又是分布式能源的重要成部分,其主要就是风力发电机和光伏太阳能电池板,因为风能和太阳能受到环境的约束比较大,发电量无法得到人为的有效控制。因此,为了保证微电网供电稳定,在不可控型微电源接入到微电网中必须要考
信息科技飞速发展的今天,互联网技术也得到了迅猛发展,电子文档的数量呈现了指数级增长,海量信息为用户提供方便的同时,也给用户获取有用信息带来了不便。如何有效地帮助用户
随着Web技术的迅速发展,尤其是通信技术的日趋成熟,实时通信技术在股票价格、新闻报道、余票查询、交通情况等领域中有着广泛的应用,但是目前的实时Web应用的实现方式,都是基
论文的目的是开发一个有着良好用户体验的电器视频交易系统。论文首先简要介绍了中国电子商务的发展历史与现状,得出了发展电子商务的企业在激烈的竞争中要留住客户,必须以良
随着互联网的迅速发展,计算机网络在经济和生活的各个领域正在迅速普及,整个社会对网络的依赖程度越来越大,这也使得网络安全问题变的愈发重要。为了预防目前越来越频繁出现的分