SVM在数据挖掘中的应用

来源 :北京邮电大学 | 被引量 : 14次 | 上传用户:gzsoft168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘(Data Mining, DM)就是从大量数据中提取潜在有价值的知识和信息的过程,其核心技术涵盖了数据库技术、统计理论、计算机智能、机器学习等多个方面的知识。机器学习是数据挖掘技术的核心,优秀的机器学习算法能够极大的提高数据挖掘的性能和成效。支持向量机(Support Vector Machine, SVM)是建立在统计学习理论基础上的一种新的机器学习方法,与传统统计学习方法相比,支持向量机有效避免了维数灾难和过拟合等问题,具有求解速度快、预测精度高等优点,并具有较好的推广能力和解的全局最优性。本文围绕如何将支持向量机算法应用解决实际的数据挖掘问题这一目标,成功地将SVM算法应用于网络侧终端定位以及自动图像标注这两个领域:(1)将支持向量机应用于网络侧终端定位,具有较高的实用价值。为了解决现有定位方法中存在的问题,论文设计并实现了一种基于支持向量回归机(Support Vector Regression, SVR)与K近邻算法相结合的定位方案,分步结合了基于小区标识的定位方法、多值SVR算法以及K近邻算法,对定位精度和计算复杂度进行了折衷。实验结果表明,该方案以相对较低的计算复杂度获得了较高的定位精度。(2)自动图像标注是目前非常活跃并且充满挑战性的工作。支持向量机是目前统计学习理论效果最好、最实用的机器学习算法,但其不能直接用于处理多属性分类(Multiple Label Classification, MLC)问题;而K近邻算法能够很好的解决MLC问题,但复杂度较高。论文设计并实现了一种基于多分类SVM与K近邻算法分步结合的图像标注算法,利用SVM分类算法来缩小K近邻算法的搜索范围进而降低K近邻算法的复杂度。通过在标准图像测试集上的仿真测试,结果显示该方案使用了更多地标注词对图像进行标注,综合标注效果较好。
其他文献
英语是一种“重音语言”,重音既是英语语音结构的组成部分,又具有区别词义和词性的功能,同时还是语调和说话节奏结构的基础。英语词重音检测一般使用时长、能量和基音等声学特征
弹丸的落地速度对炮弹的威力有很大影响,但由于其测量的复杂性,现阶段国内外还很少有对该领域的研究。本文根据雷达测量范围内测出的足够多的速度值,对其进行数据分析,采用滤
利用植物修复重金属污染土壤是一种廉价并且可行的修复技术。大部分已发现的超富集植物生物量小,限制了其在植物修复方面的应用。本实验借助基因工程手段将重金属富集、耐受相
头相关传输函数(Head-RelatedTransferFunction,HRTF)描述了声波从声源到双耳的传输过程,包含了重要的声源定位信息,对双耳听觉研究和虚拟听觉应用具有十分重要的意义。为研究HR
软件无线电的基本概念是建立一个通用的硬件平台,而将尽可能多的功能用软件实现。软件无线电的核心是将宽带A/D和D/A尽可能靠近天线,用实时高速DSP/CPU代替传统的专用数字电路
在光电跟踪测量领域,随着技术的发展,传统的高速摄影胶片判读手段已被快速高效的视频图像判读所取代,数字图像高速存储系统已经成为光电跟踪测量系统的一个重要的分系统,是事后视
球石藻(Coccolithophorid)是一类全球分布的海洋微型浮游植物,是海洋生态系统的重要组成部分,也是大洋大规模白色水华的原因种。由于球石藻细胞外被有CaCO3构成的球石粒,其生物
本文通过对荣华二采区10
期刊
心血管疾病是威胁人类健康的主要疾病之一,利用有效的手段对心血管疾病进行检测是目前全世界关注的重要课题。心电图(ECG)自动分析是现代医学中诊断心血管疾病的主要方法,利用
互联网与报纸、广播、电视等传统媒体一样,已经成为人们生活中不可或缺的信息获取渠道。互联网拥有强大的终端处理能力,使用交互的通信模式,兼容多种媒体格式(文字、图片,音