【摘 要】
:
大数据巨大的潜在价值促使大数据挖掘技术的产生,大数据挖掘是指从具有大规模性、高速性和多样性的数据源中挖掘出有价值知识的数据处理过程;如何准确、快速地从大数据中挖掘
论文部分内容阅读
大数据巨大的潜在价值促使大数据挖掘技术的产生,大数据挖掘是指从具有大规模性、高速性和多样性的数据源中挖掘出有价值知识的数据处理过程;如何准确、快速地从大数据中挖掘出有价值的知识是当今的研究热点。本文将面向大数据的聚类挖掘算法作为研究重点,以提高聚类挖掘算法的准确度和效率为研究目标,首先对传统聚类挖掘算法进行改进以提高准确度,然后对改进的聚类算法并行化以提高效率。为了提高聚类的准确度,本文在DBSCAN算法和k-means算法的基础之上,提出了基于密度的增量k-means聚类算法(Density-based Incremental k-means,DBIK-means)。DBIK-means算法首先计算数据点的密度,以密度不小于给定阈值的中心点以及在其密度范围内的点组合成各个基本簇;再依据两个簇中心点之间的距离合并基本簇;最后把没有划分到任意簇的点划分到与其距离最近的簇中。理论分析和基于KDD CUP 99数据集的实验结果表明了该算法能够发现任意形状的簇,对数据点的输入顺序以及参数不敏感,在时间开销仅略有增加的情况下可获得更高的聚类准确度,其总体性能优于k-means。为了提高DBIK-means算法的效率,降低算法的时间复杂度,本文利用分布式数据库来模拟共享存储空间,在云计算Hadoop平台上进行DBIK-means算法的并行化;通过仿真实验进行验证,实验结果表明DBIK-means算法适合大规模数据集的聚类挖掘。本文最后将DBIK-means聚类算法应用于电信客户的分类中,应用结果表明该聚类算法能够较为准确地将大量的电信客户自动划分到若干簇中,为电信运营商针对不同类型的客户制定不同的营销策略提供帮助。
其他文献
随着彩色信息在相关领域得到越来越广泛的应用,人们对色彩再现的质量也提出了更高的要求。色外观匹配技术是跨媒体色彩管理的一个重要组成部分。本文针对传统色彩管理技术不
随着对脑功能成像研究的深入,人类对语音运动控制的机理有了一定的共识。基于此,波士顿大学Guenther教授带领的研究小组提出了一个专门用于解释语音生成和获取过程的神经计算
SNP(单核苷酸多态性)是DNA多态性的一种最普遍的类型,它产生于基因序列中的一个核苷酸发生改变时,即一个SNP为基因序列中的一个核苷酸变异。SNP在整个人类基因组中大量存在,因此
在通信网络程序开发中,经常需要在通信设备以及网管软件之间进行数据报文的交换,但由于设备、软件平台异构和资源有限等诸多因素影响,使得通信报文的编解码对编码后的数据流(
随着互联网技术的发展,嵌入元数据(RDF,RDFa,Microformats等)的网络语义文档包含越来越多的结构化和半结构化数据。已有数以亿计的该类文档可以访问,并且它们的数量正在迅速
无线传感器网络是一种全新的信息获取、处理和传输技术。它集传感器技术、嵌入式计算技术、无线通信技术以及分布式信息处理技术于一体。目前,拓扑控制和路由算法作为无线传
近几年来,随着社会信息化进程的不断深入发展,人类对信息的需求和依赖程度越来越高,如何从海量的信息资源中快速有效的获取有用的信息,已经成为研究的热点,这也给信息检索带来了极
随着计算机软硬件技术、多媒体技术的发展,尤其是虚拟现实技术的发展,用计算机打造一个虚拟世界已经不再是梦想。人们越来越期盼能将自己融入虚拟世界之中,感受身临其境的体
现代的通信方式如电子邮件,博客,聊天室等使得一个通信网络中的个体的交流方式变的多样化,同时也产生了海量的并不断增长的交流数据。这些海量数据为网络中的一些组群掩饰它
随着通讯技术和计算机技术的迅猛发展,分布式对象计算技术的应用越来越广泛。在分布式技术向应用领域扩展的同时,分布式应用对分布式系统提供的服务质量的要求越来越高,分布式系