论文部分内容阅读
目前市场上各个行业对客户关系的重视程度越来越高,只有充分了解客户需求,才能更准确的提供相应的产品和服务,使利润最大化。而这其中最基本的要素便是数据挖掘中的客户分群,也就用到了聚类分析及离群点分析,综合应用下达到对客户最深入全面的了解。对商业市场中的客户关系管理具有很深远的意义。本文利用最有代表性的汽车客户数据作为典型代表进行分析,选择改进的基于密度的聚类算法DBSCAN和基于距离的离群点检测法对其进行分群分析和异常点检测分析。本文重点从简化参数求取步骤来改进基于密度的聚类算法DBSCAN和基于距离的离群点检测法。具体研究工作包括:(1)所选算法的合适度:总体上是利用两个算法在原理上的相通之处,试着将二者结合在一起,共同对数据进行分析。由于聚类没有最好的算法,而只有最合适的,因此需要根据数据特征选择最合适的聚类方案。所以首先要保证所选择的算法是最适合此数据集的,实验结果表明,DBSCAN确实是最适合具有此特征的数据集的算法,相应的,鉴于基于距离的离群点检测法与其原理的相通性,也必然是适合此类型的数据集,这里便不再累述。(2)抽取数据确定所需参数:为了节省时间和空间,并且在保证聚类质量的前提下,提出了抽取部分数据进行运算确定参数,得到参数后对所有数据进行聚类及离群点分析。首先要选择合适的取样方法,还要保证参数的准确性。实验表明,系统取样法所抽取的数据其分布特征与总体数据的分布特征最相近,并且其所得参数基本与对所有数据进行运算所得参数相同。(3)在已确定的DBSCAN参数的基础上确定基于距离的离群点检测法所需的参数:利用DBSCAN聚类过程中形成簇的基本条件“密度可达性”作为突破口,离群点应该是打破这一条件的,根据这一标准提出了一个利用DBSCAN的参数确定离群点检测法所需参数的简单理念。实验结果表明,对汽车数据集进行运算效果很好,并且通过两个带类标的UCI数据集验证检测率也很高。