【摘 要】
:
如何降低数据的维数而不损失原有数据的内在信息是数据挖掘和机器学习领域中的经典问题,降维是指样本从高维输入空间通过线性或非线性映射投影到一个低维空间,从而找出隐藏在高
论文部分内容阅读
如何降低数据的维数而不损失原有数据的内在信息是数据挖掘和机器学习领域中的经典问题,降维是指样本从高维输入空间通过线性或非线性映射投影到一个低维空间,从而找出隐藏在高维观测数据中有意义的低维结构,解决高维数据的维数“灾害问题”。基于子空间的学习和流形学习算法吸引了大量研究者,成为本领域的热点问题。
本文主要讨论了数据降维过程中的三个方面的问题:
1.在图嵌入框架的基础上提出一种新的降维分析算法IKLDA(improved kernelLinear discriminant analysis),不仅使得隐藏在图像的信息能被区分出来,而且大大降低了数据的维数,理论分析及实验结果表明IKLDA的降维隐写分析是有效的,比其它传统降维方法效果要好,并且进一步推进了数据挖掘可视化方法在隐写分析的应用。
2.在数据集的内在维数的确定方面提出一种以反向k近邻为基础的最大似然维数估计算法,弥补了低维流形在k近邻中形成短路问题的不足之处以及数据密度不均匀给维数估计带来偏差问题,在人造数据集和真实数据集的维数估计中,取得了较好的效果。与此同时,提出了一种基于粒子群优化算法的维数及近邻大小的参数优化策略PSO-LLE,通过智能计算来估计数据的内在维数和近邻的大小。
3.提出一种基于纹理特征的非线性降维算法Gabor-LLE,对中文手写笔迹进行分析处理。首先对手写笔迹图像进行预处理,然后用gabor滤波器提取出特征,最后用流形学习算法LLE进行降维分类,取得了较好的效果。
其他文献
或许在未来的20年里,WebService将会成为软件开发领域最热门的话题,随着WEB2.0的迅速普及,如何利用好WebService这一新技术就成为一个非常重要的课题。
尽管SOA(ServiceOri
相似连接算法在数据清理、数据集成和重复网页检测等领域有着广泛的应用。相似度的度量方法有多种,包括Jaccard相似度,Cosine相似度,Dice相似度和Hamming距离等。本文中主要
随着Android智能手机的普及,其系统安全问题越来越受到人们的重视。普通用户日常使用Android手机时问长,系统内通常会储存重要文件和隐私信息。相对于传统桌面设备,用户行为
企业以项目管理为主线,为参与项目活动的所有干系人提供了信息共享的平台,并全面记录和控制各项经营活动,达到项目管理要管理一切事和人的目的,提高管理工作效率。本文系统就是以
随着业务数据的积累,特别是网络数据的快速增长,利用科学的手段快速处理数据,从多个不同的角度分析数据的需求不断增长。多核CPU,以及多核CPU集成GPU硬件架构的出现为快速处
随着科技技术的快速发展,越来越多的领域采用信息技术进行相应的操作和数据管理。此方式与以往的数据处理相比,简化了操作,提高了工作效率,但是随着信息化的不断推进,数据的
IP网络的迅速发展使其成为当今人们通信的主要基础设施,随着IP网络规模快速地扩大,传输速率日益增长,网络结构愈加复杂,这就需要对我们对IP网络的性能和行为进行测量,对IP网
随着国内各大医院信息化建设进程的不断发展,各类临床信息系统为医院积累了丰富的临床数据资源。临床数据中所包含的海量医疗活动信息,不仅是医疗、教学、科研的第一手资料,
随着信息技术的提高和互联网飞速发展,企业和个人数据出现爆炸式增长。研究调查预测到2020年全球数据量将达到35ZB。大数据时代已经来临,传统数据存储方式已经无法满足大数据
逆变器在工业、民用领域应用是很广的,作用也很大。它的一个主要的用途是:应用于工业运动控制、节能运行控制,这通过它对交流电动机变频调速实现。另一个是将直流电能转化成交流