聚类技术在车险业务分析中的应用研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:feierdalong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是近些年来发展起来的新技术,通过数据挖掘,人们可以发现数据背后隐藏的有价值的、潜在的知识,为科学地进行各种商业决策提供强有力的支持。当今,数据挖掘已发展成一门跨越多领域的学科,已经成为数据库、模式识别、神经网络、统计学、计算智能等领域的研究者关注的热点。本文首先介绍了数据挖掘研究的相关背景,对数据挖掘中的聚类分析的相关工作作一个简要的概述,并且结合车险业务中的挖掘主题,详细分析了聚类技术在车险业务中的应用。其应用主题主要在三方面:客户细分,欺诈识别和客户投保行为分析。本文研究了现有的迭代优化聚类的初始化方法:即采样法,密度估计法以及距离优化法,分析了它们的优缺点,提出一种新的基于层次聚类算法的初始化方法。该方法能够找到较为自然的初始聚类中心,且对孤立点和噪声有较强的抑制,适用于大规模数据的聚类初始化。K-means算法是聚类算法中主要算法之一,它是一种基于划分的聚类算法。该算法随机选取K(K为聚类数)个点作为初始聚类中心,通过一个迭代过程完成聚类。如果初始聚类中心选取不合理,就会误导聚类过程,得到一个不合理的聚类结果。本文用新的聚类初始化方法K-means算法中初值选取方法进行了改进,采用对数据集进行均匀采样,得到一个能在一定程度上代表原数据集特征的子集,在子集中采用层次聚类算法得到k个聚类中心,最后在原数据集上以这k个聚类中心最近的点作为初始聚类中心进行K-means算法聚类。由于层次聚类算法是在一个小数据集上运行的,计算量不会很大。在进行K-means算法聚类时,由于初始聚类中心接近真实值,可以大大提高聚类效果。K-means算法在运行过程中需要不断迭代,直到终止于局部最优解。这一过程反复计算比较,计算量较大时对算法效率有较大影响。本文提出一种基于内积不等式的改进方法,内积不等式是基于数据点的模和向量内积的不等式,并且改写了K-means算法处理过程。通过实验验证了可行性。本文针对数据挖掘聚类算法在车险业务分析中的应用,结合实际应用设计并实施了一个车险CRM数据挖掘原型系统。本文从系统功能,模块划分和处理流程等方面进行详细分析与讨论,并展示了部分已实现的功能。
其他文献
近年来,表情识别技术作为一种新型的人机交互方式,受到了越来越多研究者的关注。本文对国内外现有的人脸表情识别技术和方法进行了分析,在比较现有的表情识别方法的基础的上,在针
可信赖性已形成较为成熟的理论体系,是度量各种分布式系统服务质量的重要指标。随机Petri网(Stochastic Petri net,SPN)对系统的并发性、异步性和不确定性具有很强的动态分析
主观试题自动批改技术作为自然语言理解中重要课题之一,对于学生自侧作业、大规模在线考试方面具有非常重要的意义。目前针对客观题的自动批改技术己经相当成熟,但是,对于论述、
伴随着Internet的飞速发展,博客系统作为一种社会性软件,在互联网上得到了广泛的应用,同时Internet上的各类信息资源和博客用户群也在迅速激增,面对互联网上丰富的信息资源,
随着网络中多媒体业务和P2P业务的广泛应用,对网络流量识别与控制技术的研究已成为网络流量管理中的重要课题。网络流量控制是保证网络中关键业务正常运行的重要手段。网络流
计算机网络的复杂化和异构化要求网络管理系统能够提供更加智能、动态、高效率的网络控制能力。本文首先分析了网管技术和移动代理技术的研究现状、总结了当前网络管理系统在
运用计算机图形学及图象处理技术可以形象、直观地显示科学计算的中间结果及最终结果并进行交互处理,因而许多抽象的、难于理解的原理和规律变得更加容易理解了,许多冗长而枯
近年来,处理器的性能依然遵循摩尔定律不断提高,功耗也随之增加。各类便携智能终端和移动通讯设备迅速普及,人们对移动计算的要求越来越高。这些移动计算设备通常采用电池作为重
如今,Web成为了网络信息的主要平台,是人们获取知识的主要来源。但是,由于Web页面的无结构性、超链接的自由无序、以及Web内容的海量性、多样性和动态变化,人们从Web上搜索真正想
以Internet为主要标志的网络技术飞速发展,为人们的日常生活和社会生产的发展带来了巨大的便利。随着网络深入到社会生活的方方面面,网络信息安全的问题已经成为人们关注的焦