聚类算法及其在信用卡恶意透支预测中的应用研究

被引量 : 0次 | 上传用户:chaizw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今信息爆炸的时代,海量数据随之涌出,这给知识发现带来了挑战,同时为数据挖掘技术提供了很大的发展空间。聚类分析是数据挖掘中的一项重要技术,被广泛的研究和应用,它不仅能独立完成数据分析,还可以结合其它方法挖掘出更有价值的知识。聚类分析起源于许多其它的科学领域,包括统计学、生物学、数据挖掘和机器学习等等。目前,聚类分析方法主要应用于市场分析、模式识别、数据分析、图像处理等多个研究领域,为研究人员和决策者提供了一定的研究课题和相应的技术支持。基于聚类的数据技术,经过多年的研究与发展,方法大致可以分成五类,在实际运用中,我们可以运用某一种方法来解决问题,但大多数情况下,针对问题规模大小和数据分布情况,结合多个聚类方法的思想,或是引入其它方面的数据挖掘算法,取长补短,设计出更有效的算法,目的是能更好的处理多种实际问题,得到更有价值的知识。本文对聚类中常用的两种算法进行了分析研究。首先,介绍了CLIQUE聚类算法,该算法是综合了基于密度和基于网格的一种数据聚类分析算法,对于大型数据库中高维数据的聚类分析具有很高的效率,能得到很好的聚类结果。但是由于在运用过程中,常将方法简化,导致聚类结果精确性可能会有所降低。本文分析了CLIQUE算法的特点,提出了它的不足,为以后研究工作指明了方向。然后,重点介绍了基于划分的K_means算法及其应用,本算法采用启发式方法,算法思路清晰易于理解,收敛速度快,目前应用范围广泛。但是,K_means算法也存在一些缺点和不足:(1)算法对聚类分析选择初始聚类中心点时,是随机产生进行选取的;(2)参数的输入较多,对于不同的数据集,参数的选择对聚类结果有一定的影响,而在分析开始无法精确的选择参数。本文分析研究了K_means算法中聚类中心初始化的重要性,以及现有的几种初始化聚类中心的算法及其改进思路。在此基础上,融合了基于距离和基于密度的聚类算法的基本思想,采用了基于高密度的初始聚类中心算法。实验结果表明,基于高密度选择初始聚类中心算法,能有效减少K_means算法的迭代次数,对初始聚类中心的选取更合理。最后,本文将基于高密度的K means聚类分析技术应用于信用卡恶意透支预测,对系统中现有的黑名单进行聚类分析,挖掘出他们恶意透支的相似性,从而预测当前哪些客户有恶意透支的可能性,向发卡行提供预报信息,做到防微杜渐。
其他文献
整个出版行业基本上是由上游的出版机构和下游的发行渠道控制的,而出版的核心是内容产业,因此整个出版行业的重点将是生产内容的出版社系统,只要以生产内容的出版社系统实现
<正> 一政体是国家政权的组织形式。奴隶社会中,由于各个国家具体历史条件的差异,奴隶主为了巩固自己的统治,在组织国家政权机构方面,采用了不同的政体形式。列宁说:“在奴隶
文中对90多年来中国科教片创作的相关研究进行梳理和评述,回顾过去的研究所取得的成果,提出研究的不足,以期能为今后的科教片创作与研究提供参考,更好地指引中国科教片的创作
美国现任总统奥巴马无疑是一位杰出的演说家。在演说中,他不仅能体现自己作为领导人的权威性,还能弱化交际中的权势关系以便与听众建立一种良好的人际关系。本文以韩礼德系统
国家工作人员在履行自身职务所赋予的权力、职责时,能否遵守国家法律,保持自身廉洁情操,关系到社会经济能否良好发展,国家政权能否稳固。近年来,随着我国社会领域的深刻变革,
现代社会和公众生活发展的多样化,要求博物馆成为能与市民共生的博物馆。为此,博物馆应从教育推广等方面入手,提升对观众的吸引力,加强与学校教育的关联,关注与产业、经济界
随着网络及相关技术的飞速发展和应用领域的不断扩大,分布式数据缓存系统已经成为许多互联网应用的数据部署方式。例如,Memcached及其增强版本。在数据吞吐量,数据备份和数据
本文“YC6108Q曲轴双面磨削自动化磨床的设计与开发”,是受文登天润曲轴股份有限公司委托,制定针对曲轴双面磨削自动化磨床的总体设计方案并完成自动化磨床整体设计的应用项
作为国家软实力的重要组成部分,智库对我国经济和社会发展有着不可忽视的积极影响。对智库基本特征、国外智库建设经验、智库影响力、民间智库发展等方面的研究表明,当前对智