基于聚类特征树的大规模支持向量机

被引量 : 0次 | 上传用户:a610735932
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展,数据规模的增长达到了前所未有的速度,大数据已经成为当前机器学习的热门主题。由Cortes和Vapnik首次提出的基于统计学习理论的支持向量机(SVM)分类算法,具有良好的学习效果和泛化能力,但当训练数据集规模较大时,该算法在计算资源方面的要求急剧增长。为了将支持向量机算法扩展到大规模数据集,本文从以下几个方面对该问题进行研究和分析。首先,基于局部学习的思想,本文提出结合聚类算法BIRCH和分类算法SVM以建立局部分类器的大规模分类算法HCLL-SVM。该算法利用BIRCH聚类算法中的聚类特征结构将数据按空间分布划分成多个局部标记簇,然后针对各个局部标记簇,利用SVM分类算法构建多个局部分类器。其次,本文根据测试样本与众多局部分类器的距离,选择最近的分类器进行测试。并通过14组数据集的实验,说明HCLL-SVM算法在一定程度上提高了大规模数据的训练速度和测试速度,且具有较高的测试精度。最后,本文对聚类算法BIRCH中的聚类特征树结构中的分支因子与建树时间,模型训练时间,精度,测试时间之间的关系进行试验,得到如下结论:当分支因子的值在5到10之间变化时,以上衡量指标在各数据集上能得到较好的结果。另外,本文通过在1.5G内存(该内存不足以加载所有数据)下对810万的数据集进行实验,表明HCLL-SVM算法能在有限的系统资源下完成大规模数据的训练。
其他文献
为保障消防员的人身安全,满足避火服的高温耐火隔热需求,分别选择厚度为6. 5和7. 0μm的铝箔与玄武岩基布和玻璃纤维基布复合制备得到耐高温隔热材料,通过热重(TG)分析仪测试
相比集中式电站而言,分布式光伏发电因在位置选取、电能传输与规划、数据临控等方面具备明显优势,于世界范围内得到了广泛应用。在欧洲,分布式光伏在整个光伏发电应用中的比例高
2016年9月18日,著名材料科学家、中国当代无机材料科学的重要奠基人,中国科学院院士、中国工程院院士、中国科学院上海硅酸盐研究所名誉所长严东生先生在上海逝世。
<正>若有人问你,在中小企业的网络规划中,必须遵守的几个原则是什么?那么,可靠性,必定名列其中,而且是名列前茅的。可见,可靠性在中小企业网络建设中的重要性。但是,俗话说,
以天然鳞片石墨为原料,PVB为黏结剂,PEG和DBP混合物为增塑剂,通过流延工艺在室温下制备了定向排列的石墨/聚合物片层复合材料。系统分析了不同黏结剂用量和流延刀口高度下复
根据波前编码理论,通过计算机仿真分析的形式,对负折射平板透镜景深延拓特性进行了探讨在折射率为-1时,实现了8.5333倍的景深延拓;在折射率有微小偏移的情况下,以-0.99为例,
首先介绍了发动机智能起停系统工作原理、结构和控制策略以及发动机起动过程的受力情况,其次在Matlab/Simulink中建立了起停系统控制策略模型,通过和Advisor联合仿真,在NEDC
中职学生(以下简称"中职生")的大部分时间是在学校里度过,他们最主要的交往对象是同学、老师、家长和朋友。如何把握交往的技巧,需要讲究一定的方法,最根本的是提高个人的修
我国铁路既有线路绝大部分实行客货同行,全国第六次大提速调图之后,随着车辆速度提高,周转时间缩短,对车辆日常检查安全要求更显重要.货车运行故障动态图像检测系统(TFDS)在