基于抽样矩阵的汽车客户分群及离群点分析

来源 :大连海事大学 | 被引量 : 1次 | 上传用户:juhn7557
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前市场上各个行业对客户关系的重视程度越来越高,只有充分了解客户需求,才能更准确的提供相应的产品和服务,使利润最大化。而这其中最基本的要素便是数据挖掘中的客户分群,也就用到了聚类分析及离群点分析,综合应用下达到对客户最深入全面的了解。对商业市场中的客户关系管理具有很深远的意义。本文利用最有代表性的汽车客户数据作为典型代表进行分析,选择改进的基于密度的聚类算法DBSCAN和基于距离的离群点检测法对其进行分群分析和异常点检测分析。本文重点从简化参数求取步骤来改进基于密度的聚类算法DBSCAN和基于距离的离群点检测法。具体研究工作包括:(1)所选算法的合适度:总体上是利用两个算法在原理上的相通之处,试着将二者结合在一起,共同对数据进行分析。由于聚类没有最好的算法,而只有最合适的,因此需要根据数据特征选择最合适的聚类方案。所以首先要保证所选择的算法是最适合此数据集的,实验结果表明,DBSCAN确实是最适合具有此特征的数据集的算法,相应的,鉴于基于距离的离群点检测法与其原理的相通性,也必然是适合此类型的数据集,这里便不再累述。(2)抽取数据确定所需参数:为了节省时间和空间,并且在保证聚类质量的前提下,提出了抽取部分数据进行运算确定参数,得到参数后对所有数据进行聚类及离群点分析。首先要选择合适的取样方法,还要保证参数的准确性。实验表明,系统取样法所抽取的数据其分布特征与总体数据的分布特征最相近,并且其所得参数基本与对所有数据进行运算所得参数相同。(3)在已确定的DBSCAN参数的基础上确定基于距离的离群点检测法所需的参数:利用DBSCAN聚类过程中形成簇的基本条件“密度可达性”作为突破口,离群点应该是打破这一条件的,根据这一标准提出了一个利用DBSCAN的参数确定离群点检测法所需参数的简单理念。实验结果表明,对汽车数据集进行运算效果很好,并且通过两个带类标的UCI数据集验证检测率也很高。
其他文献
随着计算机技术的发展,密码分析技术的进步,视频数据面临越来越严重的安全威胁。随着H.264视频压缩标准的问世,视频数据的安全性问题更加突出。因此针对H.264的特点,如何改进加密
计算机系统漏洞以及软件漏洞让大规模攻击成为可能。攻击者通过利用这些漏洞控制目标主机实施攻击。缓冲区溢出漏洞二十多年来在计算机漏洞中一直扮演重要的角色。因而了解什
随着无线网络技术的飞速发展,人们对无线网络性能提出了更高的要求,无线Mesh网络作为“最后一公里”网络接入问题的解决方案,越来越受到研究人员的关注。现有的Handoff关联策
随着网络技术的高速发展,高速网络技术逐渐得到普及,原来的网络安全防范技术如防火墙、入侵检测系统等,已不能满足网络安全的需要。入侵防御系统作为一种新的网络安全技术,受到网
分布式系统是规模以及复杂度不断扩大的计算机应用的主要表现形式。其中,分布式追踪系统以及分布式性能监控系统是大型分布式系统诊断异常、性能监控、保证系统稳定的重要手
无线局域网(WirelessLAN)作为有线局域网的延伸和补充,其优势在于较高的接入速率、部署方便、成本较低,但缺陷在于其覆盖范围有限;第三代移动通信(3G)有较大的覆盖能力,能够提供语音
随着计算机技术的发展,分数阶微分在数字信号处理领域所具备的优点越来越多的被人们认识到,其中把分数阶微分应用于二维图像信号的处理是一个刚刚兴起的研究课题。本文对分数阶
随着互联网技术的迅猛发展、科技知识的日新月异,人们对网络探索的需求与日俱增,在这样的情况下,Web上的站点和网页的数量呈现出以一种爆炸性的趋势飞速增加。按照获取信息的
近年来,Internet发展迅速并已渗透到生活的各个角落,Internet上蕴藏着大量的各类新闻信息,传统的新闻获取方式受到极大的挑战,人们进入了一个“信息爆炸”、“新闻过剩”,而“新闻
在数据时代,可视化系统开发的需求越来越大,如何制定可视化系统开发的范式已经成为一个热门的研究问题。本文从软件工程的角度出发,提出针对可视化系统开发的嵌套增量模型,帮