自适应分类数据聚类算法的研究与应用

来源 :华南理工大学 | 被引量 : 0次 | 上传用户：wangfeiqi

【摘要】

：

数据挖掘是从大量数据中提取可信的、新颖的、有效的并能被人们理解的模式的处理过程。它汇集了统计学、机器学习、数据库、模式识别、人工智能等学科的内容，是一门新兴的交叉

【作者】

：

陈小艺

【机构】

：

华南理工大学

【出处】

：

华南理工大学

【发表日期】

：

2009年期

【关键词】

：

数据挖掘数据挖掘聚类算法聚类算法自适应分类数据自适应分类数据

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据挖掘是从大量数据中提取可信的、新颖的、有效的并能被人们理解的模式的处理过程。它汇集了统计学、机器学习、数据库、模式识别、人工智能等学科的内容，是一门新兴的交叉学科。聚类分析是数据挖掘中的一个重要研究领域，是一种数据划分或分组处理的重要手段和方法。它将数据对象分组成为若干个类或簇，使得在同一个簇中的对象比较相似，而不同簇中的对象差别较大。聚类的应用非常广泛，无论在商务领域，还是在生物学、Web文档分类、图像处理等其他领域都得到了有效的应用。　　本文对聚类进行了分析研究，介绍了聚类的相关理论知识，讨论了主要的聚类算法及其相关技术。重点分析了应用较为广泛的K-means算法，讨论了它的优缺点。针对K-means算法需要提供簇的个数作为输入参数的不足，提出了一种能估计簇个数的自适应AK-means算法，该算法无需对不同的输入参数重复运行，而是对初始簇进行分裂直到满足一定的终止条件为止。在初始划分时，引入最大最小距离法选取初始聚类中心，以提高聚类质量。在簇的分裂过程中采用两分策略，应用Ward最小方差方法来决定待分裂的簇。最佳的簇个数由一个基于组间方差的分值指标来判定。实验结果表明，AK-means算法不仅能正确估计实际的簇个数，而且运行效率较高。最后，将AK-means算法应用到系统质量属性分析中。对系统质量属性进行了收集并做统一化编码处理。针对系统质量属性是分类型数据，引入近似中位数选取算法，选取实际的数据对象代替均值作为聚类中心。实验结果合理地给出了系统质量属性的划分，有效地将数据挖掘技术应用到软件工程领域中。

其他文献

基于指纹Fuzzy vault算法的身份认证系统设计与实现

论文的主要研究内容是将指纹fuzzy vault算法应用于安全指纹身份认证的网络身份认证系统，解决由于指纹的唯一性而带来的指纹不可撤销导致的不安全因素，实现可撤销的指纹模板，并

学位

身份认证身份认证网络安全网络安全指纹识别指纹识别系统设计系统设计

基于VPN的联网监控系统的设计与实现

监控系统广泛应用于各个领域，如银行、电力、水电、教育、公安、大型公共设施、大型仓库、电信和交通等，对于保障工业生产、人民生活与社会安全具有重要意义。当前，随着科学技术

学位

联网监控系统联网监控系统视频监控视频监控数据监控数据监控设备监控设备监控VPNVPN

企业级搜索引擎关键技术的研究与实现

企业搜索引擎为用户提供互联网和企业内部与特定组织或特定主题相关联的网络信息检索服务。随着网络信息量爆炸式的增长，企业搜索引擎需要提高采集数据质量，并保障系统的处理规

学位

搜索引擎搜索引擎主题爬行策略主题爬行策略并行检索并行检索性能测试性能测试

复杂背景下的图像精细分割方法与研究

图像的精细分割技术（抠图）是指把任意形状的前景物体从图像中精细分割出来的一种技术，它是一种重要的图像处理技术，也是计算机视觉领域中的主要问题。图像精细分割是由图像处理进

学位

图像处理图像处理图像分割图像分割高斯模型高斯模型泊松方程泊松方程

基于回声状态神经网络的多变量混沌时间序列预测研究及应用

混沌时间序列预测是混沌理论的一个重要应用领域和研究热点。目前有关混沌时间序列的分析预测主要集中在对单变量混沌时间序列的研究中。事实上，复杂混沌系统往往表现为多变量

学位

回声状态网络回声状态网络多变量混沌时间序列多变量混沌时间序列遗传算法遗传算法预测模型预测模型神经网络神经网络

基于SCA的分布式业务流程管理平台研究与实现

业务敏捷性是指企业对变更快速和有效地进行响应，并且利用变更来得到竞争优势的能力。为了更好的支持业务敏捷性，企业IT系统必须解决异构编程和业务建模这两个基本问题。面向服

学位

业务敏捷性业务敏捷性面向服务架构面向服务架构分布式业务流程管理分布式业务流程管理流程引擎流程引擎

基于Internet的工业机器人远程控制研究与实现

机器人远程控制随着互联网技术的发展逐渐成为目前的研究热点，它具有广泛的应用前景。传统的机器人远程控制是采用基于视频监控的方式．但是由于视频或图像的信息量比较大，会大量

学位

工业机器人工业机器人远程控制远程控制通信协议通信协议互联网互联网

基于命名空间的组模型在统一权限管理中的实现

随着信息化过程的不断深入发展，高校或企业内部的应用服务趋向多元化，应用服务不断增加。同时，在高校、企业中，由于用户数众多，组织结构复杂，故身份认证和访问控制显得尤为重要。如

学位

统一权限管理统一权限管理分组管理分组管理命名空间命名空间组管理模型组管理模型

制造网格环境下资源调度问题研究

我国的制造企业采取了“以信息化带动工业化、以工业化促进信息化”的战略举措，对实现支持多企业间的资源广泛共享、实现上下游企业链敏捷组合的网络化制造环境提出了迫切需求

学位

制造企业制造企业网格平台网格平台Petri网Petri网资源调度资源调度遗传算法遗传算法

基于IPv6的TCP流重组与协议还原的研究与实现

随着IPv6网络的快速发展，网络流量日益增大，针对IPv6网络的入侵技术也在不断的发展，用户对IPv6网络的实时安全防护提出了更高的要求。目前，国内外网络还原分析产品大多针对IPv4网

学位

IPv6网络IPv6网络网络安全网络安全TCP流重组TCP流重组协议还原协议还原数据包还原数据包还原

自适应分类数据聚类算法的研究与应用

与本文相关的学术论文