基于量子机制的分类属性数据聚类算法研究

来源 :兰州理工大学 | 被引量 : 5次 | 上传用户:hyc1958
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术是近年来国际上在信息决策领域较为活跃的研究方向之一。作为数据挖掘的一种有力分析工具,聚类分析得到了人们的广泛关注。在众多待聚类的数据类型中,分类属性数据是常见的一类,其属性值是有限无序的,且不可比较大小。由于分类属性数据对象分布固有的无序性,使得仅有少数几种算法能实现对其聚类,但这些算法或多或少地存在不稳定、随机性差等缺点。因此,积极探索更新、更有效的分类属性数据聚类算法依然是聚类研究的一个重要组成部分。鉴于此,本文在深入研究现有CQC(Categorical Quantum Clustering)算法的基础上,针对其存在的问题,主要进行了以下工作:(1)针对CQC算法由于采用传统的Hamming相异性度量测度计算数据对象间相异性,忽略了分类属性取值自身的涵义以及取值之间的特征关联,从而导致CQC算法聚类能力受限问题,通过引入一种新的分类属性数据Ahmad相异性度量测度,提出了一种改进的MCQC算法,并分别对分类属性、二值属性和混合属性数据集进行了仿真研究,结果表明改进后的MCQC算法具有更高的聚类准确率。(2)针对CQC算法聚类效果对聚类度量尺度β较敏感,而β的确定无通用原则,可操作性差,以及CQC算法对线性不可分的数据不能奏效等问题,通过引入聚类度量尺度步长β_step和紧致性指AIAD,提出了ICQC算法,并分别在线性可分数据集和线性不可分数据集中进行了仿真验证。实验结果表明,ICQC算法在准确性、鲁棒性上较CQC算法均有提高。(3)针对CQC算法和ICQC算法不能自动、准确地确定聚类最佳类别数,在聚类有效性方面存在欠缺的问题,通过定义一种以紧致性指标AIAD和离散性指标AIED为基础的聚类有效性函数CVF,结合层次凝聚的思想,提出了CQHC算法,并以仿真实例验证了:聚类有效性函数CVF是合理的;CQHC算法不仅具有更高的聚类准确率而且能够准确地检测出最佳类别数,是有效可行的。
其他文献
无刷直流电机凭借其体积小,成本低,转矩特性佳,易维护保养等显著特点在生活及工业生产中应用越发广泛,并且成为无论在科学研究还是在市场应用中都非常热门的发展方向。但转矩脉动过大的缺陷限制了无刷直流电机在高精度及高动态特性要求场合下的应用。因此,如何抑制无刷直流电机的转矩脉动一直是科研的重点与难点。本文首先详细分析了无刷直流电机基本原理与数学模型,基于此阐述了换相转矩脉动产生原理:电机线圈中电感的存在导
公交运营调度是整个公交企业管理业务的核心,提高我国城市公交的运营调度水平,对于改善公交系统服务质量,从而增强对居民出行的吸引力,从根本上解决大、中城市存在的交通拥挤和环
随着全球信息化的到来,网络获得了飞速的发展,网络中的信息量也在迅速的增长。截止到2008年7月,世界上最大的搜索引擎的数据库中大约有1,175,311,748篇索引文档。而网上信息
多孔材料由于其特殊的孔隙结构,具有渗流特性,广泛应用于工业生产中。多孔材料的空间孔隙结构很大程度上决定了材料特性,因此对空间孔隙结构进行分析和研究具有重要意义。本
厂用变压器是电力系统输变电中极其重要的组成部分,广泛应用于各种工厂中,它的工作状况直接影响着电力系统的安全性和稳定性。近年来,由于变压器保护不当,造成故障的案例很多,甚至
随着社会生产生活水平的提高,模拟电路广泛应用于各种仪器设备,能否及时检测和排除模拟电路的故障直接关系着生产效率乃至于人们的生命安全。由于模拟电路故障的多样性和复杂性
电脑绣花机是随着数控加工技术和电子技术迅速发展而发展起来的刺绣设备,作为一种典型的数控设备,它被广泛地应用于针织行业。虽然我国电脑绣花机产业发展迅速,但是国产基于A
网络控制系统是将网络作为控制闭环一部分的计算机控制系统。以太网传输速率快速增加和交换技术的发展,加速了网络控制系统的工程应用。本文对基于交换式以太网的网络控制系
随着挠性结构在空间技术、IT制造领域的广泛应用,其振动控制问题已成为研究热点。但由于挠性结构模型的不确定性,采用传统方法控制挠性结构很难达到满意的控制效果。针对挠性
随着现代计算机技术和互联网技术的飞速发展,嵌入式系统成为当前IT行业最热门的焦点之一。而ARM以其高性能低功耗的特性成为目前应用最广泛的32位嵌入式处理器,嵌入式Linux也