基于支持向量机的多属性大规模数据分类算法的研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:shyandi123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是从大量、复杂的数据中迅速获取新颖、有效的知识的过程。分类即通过由经验数据训练得到的分类器预测未知数据的归属,是一种最常见的数据挖掘任务。支持向量机,由于其出色的学习性能,已成为机器学习界的研究热点,并在很多领域都取得了成功的应用。但是作为一种新兴的技术,支持向量机在对数据挖掘领域的分类研究还有待探索和完善。本文在介绍支持向量机的基本理论及其训练算法的基础上,重点讨论了序贯最小最优化(Sequential Minimal Optimization, SMO)算法。SMO算法是训练大规模数据集的有效算法,但是仍存在着训练速度慢、占用空间大的缺点。本文提出了一种双SMO算法。该算法在原数据集的抽样数据集上使用SMO算法得到近似分类超平面,根据近似分类超平面得到原数据集的所有支持向量,再次使用SMO算法得到最终的分类超平面。双SMO算法降低了占用空间,在一定程度上消除了噪音点对最终分类超平面的影响,加速了优化的过程。由于数据挖掘中要处理的往往是多属性大规模的数据集,所以在使用双SMO算法前,需要先进行属性约减处理,以降低计算量,提高算法速度,并使挖掘出的分类模式易于理解。基于此,本文对数据挖掘中多属性问题作了属性约减的讨论,提出了属性约减的双SMO算法。该算法适用于数据挖掘中的分类问题,为建立数据挖掘方案提供了理论依据。为验证双SMO算法的有效性,本文使用该算法对二维的数据集进行了试验,并使用属性约减的双SMO算法建立了一个数据挖掘方案。结果表明该算法提高了SMO算法的性能,缩短了训练时间,降低了占用空间,并在正确率上优于决策树、神经网络和贝叶斯算法。本文把支持向量机引入数据挖掘,为数据挖掘系统的设计提供了一种新的选择。
其他文献
【摘要】武术教学是学校体育的组成部分,对提高学生自学、自练能力、培养意志品质和高尚的德育教育有重要意义。武术教学其实质也是群众体育的广泛普及。是培养传统体育学校、提高学校知名度的捷径与方法,对我国正在实施的“全民健身计划”有重要意義。为此本文运用系统的描述,为武术教学进行初步分析,旨在提高体育教学的整体效益,目的是研究和探索武术教学在学校教学中的实践问题,对贯彻学校体育,实施“全民健身计划”具有现
人类视觉系统是获取外界环境信息的重要感官,而且在目标跟踪、图像获取、感知理解等方面具有极其精巧复杂的生理机制。机器视觉让机器能够通过视觉感知环境信息,有助于增强机
电阻层析成像技术具有结构简单、成本低廉、可视化和非侵入性等特点,是目前电学层析成像技术的研究热点之一。电容耦合电阻层析成像技术(CCERT)将电容耦合非接触电导检测技术
【摘要】本文通過对一组曲柄滑块机构的相关问题进行分析,探讨在不同假设情下摆动机构中各个构件的运动学特性,通过建立数学模型,来解决有关问题。  【关键词】曲柄滑块机构 运动学特性 数学模型  【中图分类号】G64【文献标识码】A 【文章编号】2095-3089(2015)02-0215-01  3.总结  我们在讨论过程中,假设了滑块P没有重力,与滑轨之间没有摩擦,且不计两杆的重力。但有时这些假设不
异常检测作为信息安全保障体系结构中的一个重要组成部分,很好地弥补了访问控制、身份认证、防火墙等传统保护机制所不能解决的问题。然而传统的异常检测系统在有效性、适应性