论文部分内容阅读
异常检测作为数据挖掘的重要部分,其应用不已仅仅是数据采集方面,在科学研究、股票、金融、保险、电信和Internet等领域都有广泛的应用。网络和电子商务的飞速发展,使得电子商务企业积累了大量的客户资料,电子商务企业迫切需要从大量的数据中挖掘出企业急需的知识和信息,异常数据就是其中重要的一部分,对这些异常数据不够重视或者视为错误来处理,很可能会遗漏很多重要的信息,这些异常数据往往能为企业带来大量的利润。本文围绕电子商务环境下异常检测的关键技术展开,主要论述异常检测在电子商务领域的应用,并以B公司为实例进行实证研究,进行电子商务环境下异常检测在客户关系管理中的应用研究。主要包括以下几点:1.对异常检测的相关理论进行了详细的分析。本文对异常值、异常检测进行了概念界定,并对异常检测定义和相关算法的国内外研究现状进行了归纳和总结,在比较各种算法的优点和缺点后,最后选取基于距离的异常检测算法作为本文实证部分的算法。2.构建了B网络搜索公司的异常客户检测指标体系。设置了15个指标从过去价值、当前价值、潜在价值、行为日志数据、推广方案数据几个的方面反映客户信息,应用因子分析法从指标体系中筛选出影响客户综合得分的最重要的六个指标,这六个指标也是影响客户异常的最重要指标。在分析异常客户出现异常原因的时候,结合实际证明本研究得到的这六个指标的解释力足够。3.选取了基于距离的异常检测算法和因子分析法进行实证分析。依据设计好的指标体系,对B司的50个客户进行基于距离的异常检测,得到02、21、23和29四个异常客户。应用拉依达准则对客户主因子综合得分进行异常判定,所得结果与基于距离的异常检测算法进行对照,发现有21和23两个客户是相同的,而其他客户结果不一致。4.针对各个异常客户进行甄别和异常原因的分析,并制定相应的管理和营销策略。对基于距离的异常检测算法和因子分析法挖掘出的两个异常客户,结合实际情况进行分析,找出导致异常的原因,根据这些原因制定相应的应对策略。对于两种算法不一致的02、29个客户,最后判定为异常客户,确定基于距离的异常检测解释力更强。同时,对得到主因子综合得分较高的20、24客户和综合得分最低的14、16客户进行分析,经过分析证明这四个客户不是异常客户,同时也给出了一些管理建议。