基于单元的孤立点算法研究及客户忠诚度分析系统构建

来源 :青岛大学 | 被引量 : 0次 | 上传用户:yinxiaoyi5858
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术是从上个世纪80年代开始发展起来的一门新技术,其主要的目的就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识。而孤立点分析是数据挖掘中的重要研究方面之一,其作用就是发现数据中的“小模式”,即数据集中显著不同于其它数据的对象。经过近20年的发展,数据挖掘技术在理论研究上日趋成熟,正不断的扩展其应用范围,当前数据挖掘已用于电信、金融、商业、气象预报、DNA、股票市场、入侵检测和客户分类等许多领域。因此,本文首先研究了基于单元的孤立点发现算法,指出了其存在的缺点,并予以改进;其次,采用该算法并结合其它数据挖掘技术,针对企业中的客户忠诚度分析问题构建了客户忠诚度分析系统,最后,根据海尔客户关系数据,分析了海尔集团的客户忠诚度。 第一,阐述了课题的研究背景及其重要的研究意义;从数据挖掘的理论研究和应用研究方面,对当前数据挖掘的国内与国外的研究动态进行分析;通过对知识发现一般过程的分析,给出了一个典型的数据挖掘系统的整体架构,分析了各模块的主要功能,并对其中采用的数据挖掘的技术作了详细阐述。 第二,回顾了孤立点发现的研究过程及当前研究动态,介绍了基于距离、基于密度、基于偏离以及高维数据孤立点发现中的主要算法,具体分析了各个算法的主要内容,在此基础上总结比较了各个算法的优劣及其适用范围。 第三,在基于单元的孤立点发现算法的基础上,提出了一种减少边缘影响的孤立点分析算法。针对算法中边界处孤立点的误判问题,给出了数据空间的单元格划分及数据对象分配方法,定义了数据集边界阈值动态调整函数,提出了基于单元的孤立点挖掘算法的改进算法,在不增加原有算法时间复杂度的前提下,极大地减少了边界处孤立点的误判。并通过实际应用证明了算法的有效性,最终,将该算法用于彩色人脸边缘提取中,取得了极好的应用结果。 第四,完成了客户忠诚度分析系统。首先给出了客户忠诚度的概念,说明了研究客户忠诚度对企业的重要意义;介绍了系统的主要功能:数据预处理、重点客户发现以及客户忠诚类别划分;详细分析了数据预处理模块所采用的预处理手段和方法;给出重点客户发现和客户忠诚类别划分模块中所采用数据挖掘技术(孤立点分析、聚类分析、分类预测分析),对相应技术中所采用的算法进行了详细的描述;最后介绍了用于结果显示的结果可视化模块中的两种方法:平行坐标和分类图表。 第五,通过客户忠诚度分析系统,对海尔公司的客户忠诚度进行了分析。主摘要要针对海尔公司的客户忠诚度分析问题,详细阐述了选取和处理客户忠诚度分析数据的过程及方法,分析了海尔公司中重点客户发现过程及结果,并结合不同的参数,对其结果给出了详细的分析比较,归纳得出了参数变化对重点客户发现的影响规律:此外,还运用聚类分析手段,得出了海尔客户数据中的大致类别,并从这些类别中选取合适的数据对象组成训练集,采用神经网络预测算法给出了海尔客户关系数据的最终的忠诚类别。从而证明了客户忠诚度分析系统的实用性。 最后,对本文的工作进行了总结和对研究前景的展望。
其他文献
互联网的发展和智能设备的普及使得越来越多的用户同时拥有多台计算终端,由此带来的多终端间文件同步需求催生了同步网盘这一产品。同步网盘是云存储的一种应用形式,用户根据
该文的研究主要包括:1.研究了计算智能在金融工程中的研究进展和应用,讨论了商空间理论在金融工程领域研究和应用的依据和意义,提出了将商空间理论应用于行为经济学的研究,介
动态负载均衡是网络计算的关键技术,如何提高动态负载均衡的性能,一直是网络计算人员研究的一个热点。传统的动态负载均衡方法总是收集结点负载的实时值作为任务在各结点分配的
个性化虚拟人三维建模是在虚拟场景中建立用户个性化的三维几何模型。本文使用多台微软推出的Kinect深度摄像机完成个性化人体的重建,工作流程如下:首先,根据Kinect相机特点
随着嵌入式系统复杂性的增长,嵌入式系统的开发一般需要在操作系统的基础上进行。硬件平台的多样性是嵌入式系统的主要特点,如何使嵌入式操作系统在不同的硬件平台上有效地运
针对目前Web挖掘和个性化技术的需求及研究现状,该文将研究重点放在支持个性化推荐的Web挖掘若干关键技术的研究上面,提出了一些应用于个性化推荐的Web挖掘新的算法,研究了几
本文设计和实现了基于智能卡的安全控制系统,它从网络安全和计算机安全两个方面入手保护计算机系统的安全。在网络安全方面,本文研究了已有防火墙的体系结构和关键技术,提出利用
本文对文档分类和聚类方法及其在信息检索中的应用进行了深入研究,主要包括以下几个方面的内容:通过对当前分类方法的分析,提出了基于统计的文档层次分类方法.针对当前文档聚
计算机应用的普及、多媒体技术的发展、教育体制的改革是的多媒体教学软件有了很大的市场。但当前市场上的多媒体教学软件质量很难让用户满意。如何在进度范围内制作出高质量
随着Internet的商业化,各种网络产品和网络应用相继出现,加速了IPv4地址的消耗,IPv6在这种情况下应运而生。IPv6在全球越来越受到重视,相应的网络产品和应用也大批涌现,从而