面向高维大数据的特征选择方法研究

来源 :太原理工大学 | 被引量 : 7次 | 上传用户:wang3993
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,数据趋向于具有高维化和多量化的大数据,这给数据挖掘和学习算法在文本分类,基因工程,计算机视觉等的应用带来了巨大挑战。由于数据维数和样本数的大幅度增加,会产生大量无关和冗余的数据特征,造成“维数灾难”和“过拟合”问题,不仅会降低机器学习、数据挖掘的性能而且会增加运算的时间复杂度和空间复杂度。因此数据降维成了数据处理中的一项重要工作。而特征选择是从原始数据集中剔除冗余和不相关的特征,并且不改变数据的物理特性,是数据降维的一种有效手段。特征选择可以从原始数据中获得最具代表性,最有研究价值的数据特征子集,从而提高机器学习、数据挖掘等的性能,降低运算的时间复杂度和空间复杂度。本文针对高维数据下的有监督特征选择方法和无监督特征选择方法分别提出了改进的方法。1.针对高维大数据下的有监督特征选择时间复杂度高的问题,提出均分式1L/2正则化的稀疏表示特征选择方法,降低运算时间复杂度的前提下,提高了数据的分类准确率。该方法将数据特征均分为K份,先对每份进行1L/2正则化特征选择,并用half阈值迭代算法解决1L/2正则化问题,再将数据合并,进行1L/2正则化特征选择。该特征选择方法具有稀疏性好,时间复杂度小的优点。实验表明,均分式/1L2正则化特征选择方法在高维和低维数据中都降低了特征维数,而且获得了较高的识别率,这是一种有效的有监督特征选择方法。2.针对高维大数据下的无监督特征选择方法在计算特征间相关性的时候时间复杂度高的问题,结合特征自表示和贪婪算法提出一种基于贪婪选择策略的特征自表示方法,以去除冗余和不相关特征,考虑了特征间的相关性,同时降低了运算的时间复杂度。该方法将数据特征集中的每个特征用其他特征线性表示,构建特征自表示模型,并使用计算复杂度低的贪婪算法解决该问题。实验表明,基于贪婪选择策略法的特征自表示特征选择方法相较于其他无监督降维方法,降低了时间复杂度的同时,提高了聚类的准确率,这是一种有效的无监督特征选择方法。
其他文献
H.264是一种高性能的视频压缩编码标准。相比以前的视频编码标准,H.264采用了许多新技术,使得它具有低码率、高画质、高压缩比等特点,但这是以计算复杂度的增加为代价的。在
随着计算机和网络技术的飞速发展,多媒体被广泛地运用到人们社会生活中的各个领域。同时,多媒体产品的安全问题已成为目前一个十分重要而又富有挑战性的研究课题。数字水印技术
由于宽带网络的普及,网络已应用于生活中的方方面面,许多传统的工作方式也开始发生变化,变得更为科技化、现代化,与此同时基础电信企业的互联网用户进一步趋向宽带化。从当今
随着信息技术的飞速发展和计算机技术的不断进步,人机交互方式发生了革命性的变化,人们在不断寻求灵活、方便、快捷的信息交换方式时,语音合成技术应运而生。语音合成(Speech Sy
随着计算机性能的日益提高,人们开始不满足于缺乏生动表现力的二维地图而转向三维地形;随着遥感技术、卫星技术以及如今测量技术的不断发展,人们又开始不满足于小规模的三维
AAA服务,即Authentication(认证),Authorization(授权),Accounting(计费)服务。随着因特网的发展,网络使用量得到了快速的增长。尤其进入了移动互联网时代后,网络使用量更是
为了进一步提高我国的高炉炼铁技术水平,实现高炉生产的优质、高产、长寿、低耗,高炉生产的自动化势在必行。而高炉专家系统是实现高炉操作智能化的关键技术之一。韶钢8号高
室内定位技术在停车场车位管理、煤矿意外事故后的伤员抢救、工厂机器人导航等很多方面有着广泛的应用价值,但是室内定位误差较大一直是限制室内定位技术发展的重要原因。本
知识时代的来临促使当今社会的信息量以前所未有的速度增加,决策者面临更加复杂的环境,因而高效的决策支持系统成为不可或缺的工具。体育界也面临同样的问题,如何在海量的训
随着计算机科学理论以及网络技术的不断发展和普及,使得数据量巨大的多媒体信息在全世界范围内获得了极其广泛的应用。但是由于数字信息易于拷贝和发布,存在很多安全隐患,由