论文部分内容阅读
数据挖掘是近些年来发展起来的新技术,通过数据挖掘,人们可以发现数据背后隐藏的有价值的、潜在的知识,为科学地进行各种商业决策提供强有力的支持。当今,数据挖掘已发展成一门跨越多领域的学科,已经成为数据库、模式识别、神经网络、统计学、计算智能等领域的研究者关注的热点。本文首先介绍了数据挖掘研究的相关背景,对数据挖掘中的聚类分析的相关工作作一个简要的概述,并且结合车险业务中的挖掘主题,详细分析了聚类技术在车险业务中的应用。其应用主题主要在三方面:客户细分,欺诈识别和客户投保行为分析。本文研究了现有的迭代优化聚类的初始化方法:即采样法,密度估计法以及距离优化法,分析了它们的优缺点,提出一种新的基于层次聚类算法的初始化方法。该方法能够找到较为自然的初始聚类中心,且对孤立点和噪声有较强的抑制,适用于大规模数据的聚类初始化。K-means算法是聚类算法中主要算法之一,它是一种基于划分的聚类算法。该算法随机选取K(K为聚类数)个点作为初始聚类中心,通过一个迭代过程完成聚类。如果初始聚类中心选取不合理,就会误导聚类过程,得到一个不合理的聚类结果。本文用新的聚类初始化方法K-means算法中初值选取方法进行了改进,采用对数据集进行均匀采样,得到一个能在一定程度上代表原数据集特征的子集,在子集中采用层次聚类算法得到k个聚类中心,最后在原数据集上以这k个聚类中心最近的点作为初始聚类中心进行K-means算法聚类。由于层次聚类算法是在一个小数据集上运行的,计算量不会很大。在进行K-means算法聚类时,由于初始聚类中心接近真实值,可以大大提高聚类效果。K-means算法在运行过程中需要不断迭代,直到终止于局部最优解。这一过程反复计算比较,计算量较大时对算法效率有较大影响。本文提出一种基于内积不等式的改进方法,内积不等式是基于数据点的模和向量内积的不等式,并且改写了K-means算法处理过程。通过实验验证了可行性。本文针对数据挖掘聚类算法在车险业务分析中的应用,结合实际应用设计并实施了一个车险CRM数据挖掘原型系统。本文从系统功能,模块划分和处理流程等方面进行详细分析与讨论,并展示了部分已实现的功能。