基于随机子空间的SVM分类算法研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:zgrmxm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
支持向量机是在坚实理论基础上发展起来的一种机器学习方法,它能很好的解决关于小样本、非线性、高维度、局部极小等类似问题。目前,支持向量机作为一种有潜力的分类技术,在数据分类方面得到了广泛的应用和研究。但早期提出的基于支持向量机的数据分类方法,在解决海量数据分类特别是不平衡的数据分类时会出现很多问题,严重影响着数据分类算法的计算效率和准确度。随机子空间方法是为了适应特征数据筛选的挑战,其思想就是从大量特征数据中选出真正需要的特征,以降低数据集的特征维度或平衡特征分布,它对数据预处理方面有着突出的贡献。对此,论文提出基于随机子空间的SVM分类算法研究,主要的研究工作分为以下两个方面:1.基于随机特征子空间及加权核函数的SVM算法结合随机子空间和核函数思想,提出基于随机特征子空间及加权核函数的SVM算法。首先通过采用ReliefF算法计算特征权值,然后基于随机特征子空间方法,根据特征权值选择特征,最后将选出的特征及其权值对核函数中的内积进行加权计算,从而减少了核函数中内积加权的计算复杂度。在平衡数据集的分类研究中,该方法在一定程度上解决了传统的SVM算法缺乏高效率和低准确率的问题。2.基于支持向量机的不平衡样本集分类算法结合重采样技术和分层抽样方法,提出基于支持向量机的不平衡样本集分类算法。该算法以支持向量机为基础,首先利用分层抽样方法,选出样本的正、负特征,以平衡样本底层特征分布,然后在此基础上采用重采样技术,对样本数量进行平衡,因此从样本底层特征分布和样本数量上很好的解决了数据的不平衡。在不平衡数据集的分类研究中,该方法避免了仅考虑数据样本数量不平衡而忽略样本底层特征分布不平衡的现象,使不平衡数据对SVM分类器的影响程度得到进一步降低。
其他文献
云南是我国烟草强省,从上世纪90年代开始,云南省包装印刷行业引进了大量的进口设备,尤以凹印生产线居多,使得其设备水平和工艺水平迅速跨入全国,甚至国际先进水平的行列.同时
一、亚洲各国瓦楞纸箱业的现状在亚洲,包装用瓦楞纸箱业的发展越来越快,它不仅取代了部分传统木箱,而且随着科学技术的发展,更趋向轻质的细瓦楞化.
在生产实践中,笔者经常发现,有些书籍版面仅从制版角度看是没有问题的,但由于拼版时对装订工艺考虑得不完善,以及人们习惯的生产方式,人为地为书刊质量的提高设置了障碍.出现
矿产资源是社会生活中所必须的重要资源,对于社会经济的发展也有着非常重要的影响。我国的矿产资源相对较为丰富,然而人均占有率相对较低,因此对于地质矿产的勘察也有着非常
2005年10月13日,上海紫宏机械有限公司在蓉城成功召开了上海紫宏西南区用户联谊会、云商省新闻出版局印刷管理处处长龚萍女士、原四川省新闻出版局副局长现四川印刷协会理事长
优化资源配置、发挥整体优势,做大做强榆林市地方能源产业,提高榆林市能源类企业的规模效益和核心竞争力是榆能集团成立的初衷。榆能集团不负众望,经过7年的发展,集团资产总
目的:证实中药清肺平痤汤治疗肺热型痤疮的疗效和药效学机制。方法:将80例痤疮患者随机分为治疗组50例,对照组30例,分别采用口服清肺平痤汤、一清胶囊,8周为1疗程,对比观察临
根据<美国职业安全与健康管理条例)规定.每年需要支出1710亿美元用于与职业有关的疾病和伤害.这些费用均出自各公司的经营利润.有时要占到国家税收的5%。很多人认为.现代化印刷的
【正】真正的低碳能源是核电,它是大规模取代煤炭的能源。100万千瓦的核电站,如果替代同样规模的煤电站,一年可以节约350万吨的煤炭。所以对于减排的贡献是非常大的。全世界