基于支持向量机的代价敏感数据挖掘研究与应用

被引量 : 0次 | 上传用户:chenzhuqing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
产生于20世纪90年代的数据挖掘(Data Mining,DM)技术是一种基于海量数据获取知识的技术。随着计算机和存储技术的快速发展,人们已经积累了大量的历史数据,迫切需要把这些历史数据转化为可用的知识,因此DM相关内容已得到广泛的研究,并有一些成功的应用。但当面对的挖掘任务涉及不同类型的代价时,大多现有DM算法的直接应用不能很好地完成DM任务,需引入代价敏感数据挖掘(Cost Sensitive DM,CSDM)。对于给定的样本集,常用的DM算法假定每个样本的误分类代价都相等,以泛化精度为学习目标;而CSDM则是考虑到不同样本的误分类代价不相等,以最小化期望代价为学习目标。 支持向量机(Support Vector Machines,SVM)源于统计学习理论(Statistical Learning Theory,SLT),是一种强有力的DM算法。不同于神经网络、决策树等传统算法基于经验风险最小化(Empirical Risk Minimization,ERM)准则,SVM基于结构风险最小化(Structural Risk Minimization,SRM)准则,即同时考虑经验风险和模型复杂度,因而获得良好的泛化性能。但和传统算法一样,SVM不具有代价敏感性,不能直接用于CSDM。 针对CSDM问题,本论文提出一系列基于改进SVM的CSDM算法,并进行应用研究。本论文主要内容如下: 1.基于SVM及其启发,提出并证明了支持向量率(和数)与边界支持向量率(和数)的界,并把这些界分别扩展到正例与反例;提出并证明了正例的支持向量率与边界支持向量率分别依概率大于反例的支持向量率与边界支持向量率;证明了正例的分类性能依概率差于反例的分类性能,即证明SVM算法应用于不平衡数据挖掘时同传统基于精度的算法一样存在“有偏性”。虚拟数据集试验和Benchmark数据集试验表明了假设的合理性和结论的正确性。 2.基于SVM实现SRM原则的启发,在SVM中嵌入拒识代价和误分类代价,提出了SVM-RMC分类器的设计,并基于修改的SMO算法给出了该优化问题的求解方法。在SVM-RMC中,决策函数和拒识区域的确定在训练过程中实现。试验结果表明:相比于SVM,SVM-RMC减少平均测试代价,提高分类可靠性。 3.基于SVM,通过引入概率估计和代价最小化过程,提出了一个基于SVM的CSDM算法CS-SVM,在此基础上提出了一个通用CSDM算法G-CSC。CS-SVM和G-CSC以误分类代价最小作为优化目标,G-CSC中包含的分类算法可以是任意的,只要把分类算法的输出构造成后验概率的形式。基于虚拟和Benchmark数据集的试验结果表明CS-SVM能有效减小平均测试误分类代价。 4.基于K最近邻(KNN)算法,提出了确定噪音代价的方法,并将其引入到SVC和SVR算法,进而提出了嵌入噪音代价的代价敏感SVC(SVC-NC)算法和代价敏感SVR(SVR-NC)算法。基于虚拟和Benchmark数据集的试验结果表明,
其他文献
阅读是获取信息的主要途径,学生阅读能力的强弱直接关系到他们今后获取信息的能力;而如何提高阅读水平又一直是困扰中国英语学习者的主要问题之一。英语阅读课的主要目的在于
论文以研究和分析建筑与行为之间的关系为出发点,通过行为建筑学理论的分析和运用,以及从人的行为活动的本质角度去理解和评价建筑,来为建筑设计带来新的启示。 文章首先概述
目的评价心理健康教育对上颌骨缺损赝复体修复效果的影响。方法选择46例赝复体修复患者,随机平分为试验组和对照组。试验组在赝复体修复前后进行系统的心理健康教育,对照组则
中国改革开放三十多年来的现代化进程中,英语教育激发了各种强烈的情绪情感,包括:以八九十年代为代表的"多快好省"激情与亢奋,与其相联系的是经济腾飞、发财致富的强国强己之
探讨地塞米松对大鼠肝细胞球状体细胞骨架再建的影响机制。肝细胞球状体培养于胶原三维基质中,行ZO-1免疫组化染色;抽提蛋白行蛋白质的印记杂交。ZO-1在肝细胞球状体空泡壁聚
根据质量控制与基础自动化的递阶关系,结合串级控制的思想,设计了基于案例推理的预热球团质量控制器。经仿真测试,验证了球团质量控制策略的可行性,对于球团实际生产过程的具
本文第一部分通过对我国商品房预售中利益冲突的分析,探讨了目前我国解决这种利益冲突的私法解决机制,并分析了这种机制的内在缺陷:合同法及其司法解释所设定的纠纷解决机制,只是
在全球经济一体化进程加快、科学技术飞速发展的时代,维护人类文化的多样性,保持国家或民族的个性日益重要,对非物质文化遗产的保护就成为了国内外普遍关注的一个热点问题。2
<正> 据美刊《香料和香精》1982,No1报道,波兰普通食品化学研究所用欧洲松松节油的主要组份(约占15—41%)蒈烯及蒈烷的衍生物合成新的香料并研究了这些产品的香气性质。以蒈
期刊
<正> 国际核监督(亦称核安全保障),是超级大国利用核优势,推行核垄断政策,阻止其它国家掌握核武器的工具。第二次世界大战后,美国为了维持核武器独占地位,在实行原子技术封锁