数据流降维算法研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:yanzi841213
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代信息技术的发展,数据流作为一种新型的、更切合实际的数据模型广泛出现在众多应用领域,各种应用已提出了数据流实时处理需求。由于数据流中的数据经常呈现高维性,其中包含的大量冗余特征会极大地影响机器学习和数据挖掘算法的效率。降维算法作为高维数据预处理的重要方式之一,可以有效地消除冗余特征,改善挖掘算法的效率和性能。但是传统的降维算法已无法满足数据流的实时性处理要求,因此针对数据流的特点,采用合适的数据结构,研究有效的数据流降维算法,已成为目前数据流管理研究的一个热点。为此,本文针对数据流的特点,分别研究了适用于数据流的线性降维算法和非线性降维算法。首先,本文深入研究了经典线性降维算法PCA,分析了其在处理的数据类型及时间效率等方面的不足,结合数据流的实时性、无限性等特点,提出了一种基于主成分分析的数据流降维算法(Data stream dimensionality reduction algorithm based on principal component analysis),简称SPCA,此算法利用滑动窗口和概要结构适应动态数据流变化,不仅能有效地消除数据流中的冗余特征以实现降维,而且可以有效地处理混合属性的数据。其次,本文基于所设计的SPCA算法,进一步改进了主成分分析的相关系数矩阵计算公式,并将改进的相关系数矩阵的计算过程和线性投影阶段进行分布式并行,设计了分布式并行化的数据流降维算法DPSPCA(Distributed Parallel SPCA),并将DPSPCA算法部署到分布式流平台Storm上进行实现和测试,性能测试实验结果表明,DPSPCA能有效提高数据流降维的效率和速度。最后,为了满足数据流的多样性,弥补SPCA算法只能处理线性数据的不足,本文设计了基于核主成分分析(KPCA)的数据流非线性降维算法(Data stream dimensionality reduction algorithm based on kernel principal component analysis),简称SKPCA。同样针对数据流的特性,对核主成分分析算法做了适当改进,通过设定阈值来判定动态数据流流量,针对不同的流量选择不同的方法计算核矩阵,然后再进行核主成分分析。综上所述,本文对数据流降维算法的研究具有一定的理论性和较高的实用价值。所设计的算法不仅能降低数据属性的维数、减小空间需求、提高处理效率,而且具有良好的性能,能提高后续数据挖掘的效率。借助数据流处理平台,算法效率可进一步提高。
其他文献
娱乐机器人是机器人领域中一支极具前景的新生力量,强调人机交互性和用户情感体验,具有让主人身心愉悦的特点。象棋机器人就属于娱乐机器人的一种。本文所介绍的中国象棋对弈
随着近年来智能手机的普及,以及无线传感器网络、众包计算、社会计算、机会网络研究的不断深入,移动群智感知这种新型的感知模式被提出,其理论和关键技术有了进一步突破的契
图像分割是把一副给定图像按照一定的分割标准分成各具特性的区域,同时将其中感兴趣的目标提取出来。图像分割的难点在于在保持同质区域一致性的同时获得清晰准确的分割边缘,
报表设计工具是一种可通过拖拽操作,灵活地进行表格、形式、样式设计,并可导入用户报表数据的软件工具。报表模板库是报表设计工具的重要组成部分,可支持用户方便地进行报表
图像增强是一种基本的图像预处理手段,它对于改善原始图像的图像质量和视觉效果有着重要作用。本文针对X射线胸片中肺节点图像增强算法进行了研究,提出了新的X射线胸片肺节点
在软件生命周期中,软件测试是较为耗费资源和时间的一环,自动化测试虽然可以提高软件测试效率,但效果仍然比较有限,且无法解决耗费资源的问题。随着云计算的产生与发展,其诸
工作流技术把企业的业务过程管理从应用系统中分离出来,为企业更好的实现经营目标提供了先进的手段。但在工作流带来高效率的同时,其安全性也面临严重的挑战。访问控制成为众
随着嵌入式技术的飞速发展,嵌入式计算机渐渐渗透到人们生活的方方面面,其中某些关键性的应用对计算机的可信性要求越来越高,传统的嵌入式系统已无法满足这样的要求。嵌入式
随着空间数据库技术的不断发展和人们应用的增长,空间数据的时域信息的研究越来越受到关注。在这种情况下,时空数据库的诞生成为了必然。然而时空数据量的庞大和非结构化性给
信息时代的到来不仅提供了海量的数据供我们研究和使用,同时也对我们快速、有效获取信息能力提出了一大挑战。文章摘要则在一定程度上缓解了人们的这一难题。文章摘要能以简洁