数据挖掘中聚类算法的研究与应用

来源 :中国农业大学 | 被引量 : 0次 | 上传用户:AAAA1234560
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文首先系统的介绍了数据挖掘的基本技术,重点介绍了聚类分析的相关技术.在深入分析客户信息数据库CID(Customer Information Database,CID)数据的基础上,依据专家建议,确定该文的挖掘目标:对银行客户进行聚类分析,在客户中发现不同的客户群,从而有助于金融政策的调整和制定.其次,针对CID数据库中数据的特点以及该文的研究目标,该文采用属性选择、数据清理、属性重构、数据归约和数据变换等方法对CID数据库进行处理.数据预处理技术改进了数据的质量,提高了聚类分析过程的精度和性能.另外,该文着重对聚类算法进行了研究.由于CID数据库同时含有数值型数据和符号型数据,该文选用K-Means算法及其变形作为主要方法,采用两种策略对CID数据库进行聚类分析:一种是把符号类型的数据转化为数值型数据,用能处理数值型数据的K-Means算法进行分析;另一种是直接利用可以处理混合属性的K-Prototypes算法来进行聚类分析.然后分别对这两种方法的聚类结果进行了分析,并对这两者的效率进行了对比.直接K-Means算法其时间复杂性与对象数目和聚类数目成比例,当对大型数据库进行分析时,其计算代价是相当高的.针对其在处理大数据集时的不足,该文给出了基于k-d树的K-Means聚类分析算法.该方法采用k-d树作为主要的存储结构,将数据信息存放在k-d树中.实验表明,其运行效率较直接K-Means算法有了明显的提高,充分显示出采用k-d树作为存储结构的优点.最后,该文总结了已有的研究工作,并对未来工作进行了展望.
其他文献
多变量公钥密码在近些年得到了快速地发展,由于可以抵抗量子攻击,其被认为是传统公钥密码体制的一种替代方案。目前已经设计出多种多变量公钥密码体制,例如MI加密体制,油醋签名体
网络计算机(NC)系统,以其总体拥有成本(TCO)低,安全性、稳定性高等优点正在被越来越多的用户所接受.与此同时,Internet网络技术的发展和局域网的普及,基于Web的应用大量部署,
基于网络的数字监控录像系统使用分辨率高的摄像机、稳定的网络、高速的处理器及大容量的存储设备,其录像具有准确、实时、灵活、完整的特点,目前银行部门普遍采用了这种系统
1993年,台湾学者W. L. Gau和D.J.Buehrer提出了Vague集理论,Vague集理论是对Fuzzy集理论的推广.由于Vague集是"双模糊",因此我们认为在模糊数学理论中只要把Fuzzy集理论的隶
该论文主要研究柔性织物动态仿真中的算法以及碰撞检测技术.对柔性织物的数学建模、运动微分方程的数值解法以及柔性织物的碰撞检测技术三个方面进行了深入的研究.柔性织物的
当前中国许多政府部门都开展了电子政务工程,办公自动化已成为提高政府办公效率的手段之一.目前的办公自动化系统主要基于工作流的方式,对政府部门中的公文进行电子流转,体现
在计算机网络中,组播技术是发送者将数据同时发给多个接收者的重要通信方式,它主要用于音频/视频会议、远程教学等分布式、实时多媒体应用的通信。随着多媒体技术的迅速发展,Inte
基于图像的信息安全技术是目前图像工程领域中的研究热点,近年来受到了研究者的广泛关注,其主要包括两个方面的研究内容:基于数字水印技术的图像或视频加密与版权保护以及基于生
随着网络信息的迅猛发展,信息处理已经成为人们获取有用信息不可缺少的工具。文本自动分类系统是信息处理的重要研究方向。它是指在给定的分类体系下,根据文本的内容自动判别
多小波是单小波的一个自然推广,多小波之所以成为最近几年来小波理论和应用中一个非常活跃的研究领域,部分原因是因为它可以同时拥有正交、对称、紧支撑和高消失矩等特性。然而