基于SVM的分类挖掘算法及其应用

来源 :大庆石油学院 东北石油大学 | 被引量 : 0次 | 上传用户:siman2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库技术的应用越来越普及,各行各业在经营过程中收集了大量的业务数据,在这大量的数据中蕴藏着丰富的信息,如何挖掘出这些信息使其成为有用的知识,指导企业的经营决策,已经成为一个迫切需要解决的问题,数据挖掘技术在这种背景下应运而生.数据挖掘是在数据库中发现有用的、潜在的、最终可理解的模式的非平凡过程.分类是其中一种最常用的数据挖掘任务.支持向量机(SVM)作为一种新兴的基于统计学习理论的分类算法,以其坚实的理论基础,巧妙的算法实现和突出的卓越性能脱颖而出.与其它分类算法相比,SVM方法具有全局最优、结构简单、推广能力强等优点,目前在很多领域获得了相对其它分类方法的最优的性能.鉴于此,结合参与自来水公司数据挖掘项目中遇到的问题,对基于SVM的分类算法在数据挖掘中的应用进行了研究.本文首先讨论了数据挖掘的基本概念,挖掘任务以及挖掘的基本过程,并比较分析了几种常用的分类挖掘算法及其优缺点并简单介绍了评估分类模型的几种方法.然后详细阐述了统计学习理论及结构风险最小化原则,基于最大间隔分类超平面对SVM算法进行了理论推导,并分析了SVM作为一种新的分类方法所具有的优势.在此基础上,研究了把SVM应用于数据挖掘分类任务时需解决的问题,如适用于大数据集训练的选块算法、分解算法和序列最小化算法;基于二分类支持向量机构造多分类支持向量机的一对多、一对一及DDAG算法;结合随机分层采用技术改进了基于网格搜索的SVM模型参数寻优方法.在作了充分的理论分析后,论文提出了一种基于SVM的水费欠费用户预测建模方案.结合数据挖掘理论阐述了数据预处理的过程,对建立的挖掘模型采用分层随机采样的交叉验证网格搜索方法确立模型参数进行了较为深入的研究.
其他文献
知识库作为专家系统的重要组成部分,其存储平台——数据库的不同,对武器故障诊断专家系统的诊断性能和诊断效率有很大影响。本文针对传统武器故障诊断专家系统主要存在的两个问
电子政务(E-Government)是一项将政府工作标准化、服务化、信息化、网络化、公开化的系统工程,通过计算机和网络来管理和维持政府日常办公。电子政务涉及到政府秘密信息和高敏
本文对基于SOA的企业应用系统集成进行了研究。主要内容包括: ①分析了现有的企业集成方法存在的缺点,概述了当前SOA的应用状况。 ②给出了SOA的定义以及SOA中的服务的定
随着互联网时代的发展,尤其是无线通信网络设施的发展,智能手机迅速普及并且功能越来越强大。很多日常事务的处理已经由电脑转移到了智能手机上,如视频观看、网上购物等,正因为这
虹膜识别是一种基于生物特征的身份鉴别方法,在信息及安全领域有着重要的应用价值。相对于其它生物识别技术,虹膜识别具有以下优点:虹膜具有丰富而独特的纹理特征,非常适用于
以点元作为基本元素进行三维模型的建模和绘制,在计算机图形学领域内受到研究者越来越多的关注。在研究点模型的工作中,首要任务就是要解决大量点元数据的压缩存储和快速绘制
随着科学技术的不断发展,越来越多的工业控制领域实现了自动控制。为了更好的进行远程控制与管理,视频监控与数据采集的技术迫切需要。随着嵌入式技术的不断发展和视频监控系统
本论文研究的是噪声背景下的莫尔斯信号的实时检测和识别技术。在通讯系统中不可避免的要有噪声的干扰,对于通过短波信道传输的莫尔斯信号更是如此。这对于从事人工接听莫尔斯
随着嵌入式系统的发展,嵌入式操作系统得到广泛应用,文件系统在整个嵌入式系统中日益成为重要的组成部分。JFFS2是一种基于Flash存储器的日志型文件系统。做为一种纯日志型的文
随着互连网技术的快速发展,网络结构的日益复杂,网络的安全性、可管理性及传统应用受到了挑战。网络新应用层出不穷,网络结构从传统的非对称的C/S,B/S模式,逐渐转向P2P结构的应用模