基于增量学习的分类算法研究及其在银行卡分析中的应用

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:jinr0op4
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着全球信息技术的发展,数据挖掘理论得到广泛研究,分类是其中应用最广的一种技术。随着可以利用的数据同益增长,大数据量的学习处理给研究者提出了新的难题。本文对增量式分类学习算法进行了研究,希望能够在保持分类准确率和稳定性的前提下,让分类算法能够在保持原有学习知识的基础上,对新增训练样本集进行学习,获取新样本中包含的知识。 本文首先介绍了分类的基本概念和常用技术,并着重介绍了决策树分类算法。然后论文介绍了有选择的集成学习的主要思想,分析集成学习与增量学习的相同特点,指出可以采用有选择的集成学习来为分类算法产生增量学习能力。在此基础上提出了一种增量式分类学习算法SEC4..5的设计方法: ☆基于bootstrap抽样与C4.5分类算法,采用有选择的集成学习的思想,在初始训练集上构造一系列的分类决策树,形成一个决策树集合; ☆新样本集到来后,通过对总的样本集重新抽样(适当增加被集合误分类的新样本的权重)获得新的训练集,在新训练集上学习得到新的决策树; ☆使用一个决策树竞争算法测试决定新决策树是否值得保留并加入集合; ☆分类时集合中的每棵树都进行分类预测,最终采用投票方式决定样本所属类别。 本文提出了决策树竞争机制,用于选择对集合整体分类预测能力贡献较大的决策树个体。 本文通过实验验证了SEC4.5算法的正确性,证实了其能够稳定地以较小的时间代价进行增量学习。最后,本文还将SEC4.5算法应用于银行卡数据分析的实际应用中,解决了客户分类的相关问题。
其他文献
本文在简单的介绍了入侵检测技术的概念和困难后,引入了安全事件管理的概念。首先阐述了安全事件管理目前的一些研究现状和它所涉及的一些技术,并介绍了关联算法。然后使用攻击
学位
供应商关系管理,是企业供应链上的一个基本环节,它建立在对企业的供方以及与供应相关信息完整有效的管理与运用的基础上,对供应商的现状、历史,提供的产品或服务,沟通、信息交流、
网格技术将分布的资源做统合并有效的利用。它为用户提供了访问、使用和控制分布在不同域的异构资源的能力,同时为网格安全带来新的问题。科学数据网格是以中国科学院十五信息
互联网技术和应用的不断发展,使得互联网承载了越来越多的信息。互联网的去中心化发展以及社交工具、自媒体工具在人们生活中的广泛使用也使得越来越多的互联网用户参与到了信
随着科技的飞速发展,人们每天获得的信息量也与日俱增,这其中除了人们关注的主要信息外,还充斥着大量的冗余信息。而多文档摘要技术能够很好地帮助人们从大量信息中提取主要
随着互联网的不断发展,各种各样的,包含不同主题的信息可以通过网络获取,互联网是人类历史上最大规模的数据库。通常人们获取网络信息的途径有两种:网页浏览和关键字查询。但两种
随着大数据时代的到来,人们的生活方式和消费习惯也发生重大变化,网上购物以其方便与廉价的特点受到越来越多人的青睐。越来越多的商家不仅有自己的实体店而且开设了电子商务网
OTA技术是近年来兴起的针对移动终端用户一种新型的数据动态更新方式,国内外的运营商对其都有比较广泛的应用。本文的一个主要工作就是基于现有的OTA服务器系统,抽取其共性进行
学位
随着计算机应用技术的不断发展,图像信号扮演着越来越重要的角色。许多信息均可以通过图像方式进行存储和传送,由于存储空间和信道容量的限制,图像信息必须经过压缩或量化处理后
科学数据库经过二十多年的发展,积累了大量的科学数据资源。如何对这些数据资源进行有效的管理以方便数据共享、交换和整合,成为了一个亟待解决的问题。   科学数据库标准规