自适应分类数据聚类算法的研究与应用

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:wangfeiqi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是从大量数据中提取可信的、新颖的、有效的并能被人们理解的模式的处理过程。它汇集了统计学、机器学习、数据库、模式识别、人工智能等学科的内容,是一门新兴的交叉学科。聚类分析是数据挖掘中的一个重要研究领域,是一种数据划分或分组处理的重要手段和方法。它将数据对象分组成为若干个类或簇,使得在同一个簇中的对象比较相似,而不同簇中的对象差别较大。聚类的应用非常广泛,无论在商务领域,还是在生物学、Web文档分类、图像处理等其他领域都得到了有效的应用。   本文对聚类进行了分析研究,介绍了聚类的相关理论知识,讨论了主要的聚类算法及其相关技术。重点分析了应用较为广泛的K-means算法,讨论了它的优缺点。针对K-means算法需要提供簇的个数作为输入参数的不足,提出了一种能估计簇个数的自适应AK-means算法,该算法无需对不同的输入参数重复运行,而是对初始簇进行分裂直到满足一定的终止条件为止。在初始划分时,引入最大最小距离法选取初始聚类中心,以提高聚类质量。在簇的分裂过程中采用两分策略,应用Ward最小方差方法来决定待分裂的簇。最佳的簇个数由一个基于组间方差的分值指标来判定。实验结果表明,AK-means算法不仅能正确估计实际的簇个数,而且运行效率较高。最后,将AK-means算法应用到系统质量属性分析中。对系统质量属性进行了收集并做统一化编码处理。针对系统质量属性是分类型数据,引入近似中位数选取算法,选取实际的数据对象代替均值作为聚类中心。实验结果合理地给出了系统质量属性的划分,有效地将数据挖掘技术应用到软件工程领域中。
其他文献
论文的主要研究内容是将指纹fuzzy vault算法应用于安全指纹身份认证的网络身份认证系统,解决由于指纹的唯一性而带来的指纹不可撤销导致的不安全因素,实现可撤销的指纹模板,并
监控系统广泛应用于各个领域,如银行、电力、水电、教育、公安、大型公共设施、大型仓库、电信和交通等,对于保障工业生产、人民生活与社会安全具有重要意义。当前,随着科学技术
企业搜索引擎为用户提供互联网和企业内部与特定组织或特定主题相关联的网络信息检索服务。随着网络信息量爆炸式的增长,企业搜索引擎需要提高采集数据质量,并保障系统的处理规
图像的精细分割技术(抠图)是指把任意形状的前景物体从图像中精细分割出来的一种技术,它是一种重要的图像处理技术,也是计算机视觉领域中的主要问题。图像精细分割是由图像处理进
混沌时间序列预测是混沌理论的一个重要应用领域和研究热点。目前有关混沌时间序列的分析预测主要集中在对单变量混沌时间序列的研究中。事实上,复杂混沌系统往往表现为多变量
业务敏捷性是指企业对变更快速和有效地进行响应,并且利用变更来得到竞争优势的能力。为了更好的支持业务敏捷性,企业IT系统必须解决异构编程和业务建模这两个基本问题。面向服
机器人远程控制随着互联网技术的发展逐渐成为目前的研究热点,它具有广泛的应用前景。传统的机器人远程控制是采用基于视频监控的方式.但是由于视频或图像的信息量比较大,会大量
随着信息化过程的不断深入发展,高校或企业内部的应用服务趋向多元化,应用服务不断增加。同时,在高校、企业中,由于用户数众多,组织结构复杂,故身份认证和访问控制显得尤为重要。如
我国的制造企业采取了“以信息化带动工业化、以工业化促进信息化”的战略举措,对实现支持多企业间的资源广泛共享、实现上下游企业链敏捷组合的网络化制造环境提出了迫切需求
随着IPv6网络的快速发展,网络流量日益增大,针对IPv6网络的入侵技术也在不断的发展,用户对IPv6网络的实时安全防护提出了更高的要求。目前,国内外网络还原分析产品大多针对IPv4网