简化多核支持向量机的研究

来源 :北京交通大学 | 被引量 : 11次 | 上传用户:wanglinux_0208
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,由于机器学习所面临问题的复杂化,基于单个核函数的支持向量机已经不适应于复杂大规模数据下的应用。为了更好地处理复杂异构大规模数据集,进一步提高支持向量机的泛化能力,基于多核函数的多核支持向量机已开始崭露头角。然而由于多核函数和多特征集的引入,多核支持向量机的训练过程变得更加复杂,故多核支持向量机算法的学习效率较低。自多核支持向量机出现以来,寻找多核支持向量机高效求解方法,设法提高其学习效率一直都是研究的热点。针对这个问题,已有的研究成果多集中于优化多核问题的求解过程以提高学习效率,而通过优化训练数据集来简化多核支持向量机学习过程的研究还比较少。所以通过优化缩减训练数据集从而简化学习问题,以提高多核支持向量机学习效率是一个值得尝试的思路。本文详细介绍了多核支持向量机的原理和思想以及已有提升多核支持向量机学习效率的研究成果,并提出了基于协同聚类的简化多核支持向量机算法。协同聚类是一种基于k-means聚类和协同学的算法,它可以在训练数据集中找到小规模最可能成为支持向量的样本点。通过协同聚类方法,可以在基本不丢失分类信息的前提下减小训练数据集的规模,这可以在保证分类精度基本不变的前提下,明显提高多核支持向量机算法的学习效率。实验结果分析表明,基于协同聚类的简化多核支持向量机能显著提高多核支持向量机的学习效率,尤其是在大规模训练数据集上效果尤为明显。此外,多核支持向量机采用一对多策略处理多类问题时会产生数据不均衡现象,且多次重复使用全部数据集生成分类器,效率较低。本文进一步改进了协同聚类算法,将其用于多类问题以改善训练数据不均衡现象,提出了简化多类多核支持向量机,实验结果表明该方法能有效提高多核支持向量机处理多类问题的效率和准确率。
其他文献
对网络中安全威胁的监测及其处理方法是网络安全研究的问题之一。当网络发生安全威胁事件时,往往会引发多米诺效应:网络链路流速呈异常变化、受影响的互连设备CPU使用率变高等
本论文讨论了大规模数据集备份的情形下,利用嵌入归档文件头部的自描述元数据信息对散落的归档文件集合实施有效管理的方案,并进行了详细设计与实现。 在通常的备份归档系统
Voronoi图是一个关于空间分割的基础数据结构,它以某种距离作为度量,以近邻原则对空间点集进行剖分。这种剖分结果能够很好地表达点与点之间的邻近关系以及点的影响范围等重
目前国内城市污水处理厂故障诊断技术研究主要是采用基于知识的故障诊断专家系统,然而建立基于知识的系统的一个主要问题就是知识库的构建。知识库的构建主要依靠只为少数操
时间是自然界无所不在的客观属性,自然界的任何信息都具有相应的时态属性,业务流程也不例外。传统的业务流程研究通常只考虑了流程的主谓宾,即操作者、操作、操作对象,而忽视了时
近年来随着信息技术的飞速发展,传统的SCADA系统在扩展性及不同系统之间的数据的共享与交互方面都暴露出了明显不足。新的SCADA系统应该将彻底从集中走向分布式,独立走向整合,变
目标跟踪技术在军事和民用领域应用广泛。应用无线传感器网络的移动目标定位和跟踪技术是目前研究的热点,其中,高效地使用网络能量、保证目标跟踪的准确性是研究的关键技术之
词语消歧一直以来都是自然语言处理领域中的一个热点和难点,对于机器翻译、信息检索、句法分析、文本分类等领域的研究都具有十分重要的理论和实践意义。 本文调研了国内外
在语文教学的汉字教学研究中,往往需要对汉字字形进行定量分析处理,如分析错字的字形部件,错字与正字、错字之间的关系,进行错字的分类、界定和校正等。目前的联机手写汉字输
随着信息技术的飞速发展,电子政务成为近几年信息化研究的热点,而信息共享互联互通已日益成为当前电子政务建设面临的重大课题。在构建电子政务时,需要解决新构建系统和原有