【摘 要】
:
聚类技术普遍应用于各领域中用来探索数据的有用模式。现有的聚类算法主要是针对相同属性类型的数据,然而实际中产生的大多是由数值属性与分类属性联合刻画的混合型数据。所
论文部分内容阅读
聚类技术普遍应用于各领域中用来探索数据的有用模式。现有的聚类算法主要是针对相同属性类型的数据,然而实际中产生的大多是由数值属性与分类属性联合刻画的混合型数据。所以关于混合型数据聚类问题的研究,依然是一个具有挑战的领域。本文围绕混合型数据的划分式聚类算法,在相异性度量和聚类中心初始化方法上提出改进。围绕PAM聚类算法提出了一个属性加权的混合型数据相异性度量方法。该方法结合了数值型数据的曼哈顿距离和分类型数据的简单匹配距离,将数值型数据的相异性度量看作一个整体,利用熵度量来确定各个分类属性的权重,从而得到新的混合型数据的相异性度量。在PAM算法的基础上分别使用加权的相异性度量和Gower相异性度量进行聚类,并在UCI数据集上比较其和传统的K原型算法的聚类结果。实验结果显示,使用加权相异性度量的PAM算法聚类的效果更好,准确率更高。提出基于密度的初始聚类簇中心选取方案。首先,定义数据对象的密度来衡量其在数据集中的凝聚性,再结合密度和相异性度量,计算每个对象成为簇中心的概率,选取概率最大的6)个数据对象成为初始的簇中心。最后在K原型聚类算法的框架下比较本文提出的方法与随机化初始簇中心方法的效果。实验结果显示,基于密度的聚类簇中心初始化方法有效地保证了聚类结果的稳定性。
其他文献
近年来,国内商业银行的国际业务竞争日益激烈。不同于商业银行的资产、负债类业务,国际业务具有经济资本占用低、自偿能力强、综合收益高等特点,有助于改善商业银行的资产负
无线局域网(WLAN)具有数据传输速率快、可移动办公、安装便捷等优点。目前,WLAN已经在人流量大的公共场合以及集中办公点、学校等区域得到了广泛应用。天线作为接入设备的核
近几年,随着地震资料处理、解释技术的快速发展,处理、解释高性能运算的数据量呈海量增长趋势,对大型PC集群处理计算机和解释工作站的运算能力以及存储能力提出了更高的要求,
输电线路掏挖基础是通过机械或人力的方法将土体开挖成基坑,后将钢筋骨架和混凝土在基坑内完成浇筑的基础形式。因其具有土体开方量小、施工方便、减小水土流失、环保等突出
Turbo码和低密度奇偶校验码(LDPC码)都是性能逼近香农限的实用好码。而作为Turbo码和LDPC码共同的子集,不规则重复累积码(IRA码)码既具有Turbo码的低编码复杂度特性,又具有LD
背景与目的食管鳞状细胞癌(esophageal squamous cell carcinoma,ESCC)在中国每年新诊断病例约有25万而且世界上食管癌病死率最高的国家也为中国。我国食管癌总发病率为22.14
机会传感网络是一种不需要源节点和目标节点之间存在完整路径,利用节点移动带来的相遇机会实现通信的自组织网络。若机会传感网络中某个节点失效,造成整网连通性被严重破坏或
银行的业务中,针对小额贷款的项目相对较少,且借款手续复杂,针对这个问题,P2P网络借贷随之而起。P2P网络借贷主要由以下两大优势,一是借款迅速,二是利率高。本文主要针对P2P
从新兴的互联网行业,到传统的航空航天工业,具有高扩展性与高可靠性的分布式存储技术正在逐步取代传统的集中式存储技术。然而,受限于客户端网络接口带宽,分布式文件系统数据
现有的外存图计算系统中,设计重点集中在以通用的方式对各类应用进行处理,在执行时通过对图数据的完整遍历完成计算的迭代过程。但实际上图应用中往往不需要对图数据进行完整