基于空间旋转的支持向量机改进算法

来源 :天津工业大学 | 被引量 : 0次 | 上传用户:chinamp3jgy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,庞大的数据量给人们带来无限商机,也引起了学术界、企业界及政府机构的高度重视。但数据的复杂性和多样性也导致数据价值密度不高,冗余数据较多等问题。如何从庞大的数据集中提取有效信息以辅助数据分析已成为数据挖掘和机器学习领域研究的焦点。数据挖掘的一个重要研究内容是特征选择和特征提取。其中,主成分分析算法是一种常见的特征提取方法,它通过计算协方差达到特征提取的目的。支持向量机最初是一种用于对数据进行类别划分和预测的机器学习算法,通过在一个高维空间中寻找一个超平面,使得分布于超平面同一侧的数据尽可能属于同一个类别。本文通过对支持向量机算法做深入研究后,发现支持向量机算法也可以被用于特征提取。借鉴主成分分析算法中的旋转思想,本文提出了一种基于支持向量机、空间旋转与坐标投影的特征提取方法;然后用皮尔森相关系数验证单个特征的有效性;最后使用主流分类器验证所提取特征的有效性。实验结果表明,本算法在样本集上提取到的前3个特征与分类标签均有显著的相关性,而第3个以后的特征与类标签的相关性极弱。在不同分类器的分类结果中,当使用经旋转空间特征提取算法处理后的特征时,分类结果在77%的样本集上获得了比当使用PCA算法处理后的特征时更高的预测正确率,在超过88%的样本集上获得了比直接使用源数据时更高的预测正确率;特别是当使用朴素贝叶斯算法时,在本算法处理后的特征上比直接在源数据上正确率高出近14%;当使用单层决策树时,在本算法处理后的特征上比在经PCA处理后的特征上预测正确率高出近10%。
其他文献
CDN的全称是Content Delivery Network,即内容分发网络。其目的是通过在现有的Internet中增加一层新的网络架构,将网站的内容发布到最接近用户的网络"边缘",使用户可以就近取
近几年来,随着GIS技术和Internet技术的不断发展,WebGIS有了很广泛的应用。由于GIS具有数据量大和响应要求快等特点,传统WebGIS已经不能很好地满足用户的浏览体验,如系统响应
随着中国汽车保有量的激增和国家对汽车性能检验的强制推行,客户对汽车检测线的要求也不断提高;同时,相关IT技术的迅速发展也为我们提供了更加先进和完善的解决方案。笔者在
在基因组序列组装算法中,一个最基本的问题就是如何合适的选择上下游的短序列用于组装成一个长序列。当单独从一个种子序列进行扩展的时候,大量的重复的区域将会导致非常多的
在开放式网络环境下,信息技术的迅速发展带来的网络安全问题日益突出,信息资源在被访问、分发传播过程中,存在诸如非法访问、越权使用等现象,妨碍信息安全传播。如何加强信息
数字证书作为一种权威性的电子文档,提供了一种在Internet上验证用户身份的方式,人们可以在互联网交往中用它来识别对方的身份。为了保证数字证书的唯一性和可靠性,通常采用
随着移动通讯和信息技术的不断发展,传统的手机已经不能满足用户更高级的需求,智能手机的出现,使得移动通讯应用出现了新的革命。目前,智能手机的销量不断上升,具有广阔的市
开放式网络环境使人们充分享受网络的便捷,与此同时,各种针对网络的攻击与破坏日益增多。作为保障网络安全的必要手段之一的入侵检测系统(IDS),正受到越来越多重视。从数据挖
现有的访问异构平台下应用程序的方法一般是通过远程桌面工具登录到远程主机执行服务器的应用程序。但是,这种方法存在很多不便,例如,用户不得不在陌生的服务器环境下进行操
纹理合成是真实感和非真实感绘制领域的研究热点之一,并在虚拟现实、计算机视觉等领域得到广泛应用。纹理能够表现出物体表面丰富的细节特性,可以描述各种各样有着重复特征的