面向不完备数据的三支聚类分析

来源 :江苏科技大学 | 被引量 : 0次 | 上传用户:wc836952
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析或称聚类,作为一种无监督数据挖掘方法,根据设定的测量方法,允许我们将类似样本划分到同一类簇中。它有助于我们识别数据元素之间的模式,揭示了数据对象之间的关联,并有助于发现隐藏的数据结构。由于聚类的诸多优点,它已经广泛地应用到多个领域如:机器学习、模式识别、图像分析、信息检索、生物信息学、数据压缩、计算机图形学等。聚类分析算法可以分为划分法(Partitioning Methods)、层次法(Hierarchical Methods)、基于密度的方法(density-based methods)、基于网格的方法(grid-based methods)以及基于模型的方法(Model-Based Methods)。但是,传统的聚类算法都是硬聚类算法即对于任意样本对象至多属于一个类簇,类与类之间没有交集,可见这样的划分标准过于苛刻。为了能更好地表示样本对象之间的数据结构,提出了软聚类算法如rough k-means(RKM)、rough-fuzzy k-means(RFKM)等。软聚类算法放宽了对聚类条件的限制,即任意的样本对象至少属于一个类簇,类簇与类簇之间允许有交集。其中三支聚类作为一种特殊的软聚类方法,融合了三支决策理论即任意类簇是由核心域和边界域组成,核心域中的样本确定属于该类簇而边界域中的样本可能属于该类簇。三支聚类方法充分考虑了那些无法确定类簇归属的样本对象,可以在一定程度上提高聚类结果的聚类精度,同时有效降低了决策风险。在现实生活中,由于数据获取困难、随机噪音、数据丢失、数据误读等原因造成了一些数据值的丢失。例如,作为机器学习领域中常用的UCI数据库中就有超过40%的数据集含有缺失数据,而重新获取这些缺失数据则需要花费较高的人力、物力、财力甚至是无法获取。统称这类含有缺失数据值的数据集为不完备数据集。目前,大多数聚类算法只能处理完备数据集而无法处理不完备数据集。因此本文不仅对如何实现不完备数据集的聚类问题进行了相关研究,同时也探讨了完备数据集的三支决策聚类问题。论文主要工作包括以下几个方面:(1)提出了一种基于k-means算法的改进的均值插补不完备数据聚类方法(KM-IMI)。首先,我们将指定的数据集按照特定的缺失率进行随机缺失得到相应的不完备数据集,将不完备数据集划分为两个互不相交的集合;然后,对于不包含缺失值的样本组成的集合使用k-means算法进行处理获得聚类结果;最后,对于包含缺失值得样本组成的集合根据聚类结果中各类簇的样本对象的属性均值进行填充,依据聚类中心的扰动分析方法寻找最优填充值,与此同时获得最终的聚类结果。通过有效性指标对UCI数据集的聚类结果进行评估,可以证明该方法的有效性。(2)借鉴KM-IMI算法,提出了一种基于投票式的不完备数据三支集成聚类方法。通过聚类集成的方法来处理数据集并获得多个基聚类结果;对多个聚类结果中的类簇做标签匹配;求取相同类簇标签的交集并将交集中的样本划分到对应类簇的核心域中;统计剩余样本对象的票数与所设定的阈值关系决定该样本属于类簇的核心域还是边界域;最后获得填充后的不完备数据集的三支聚类结果。(3)提出了基于三支决策理论的三支聚类模型(TWKM)。在TWKM模型中,使用重叠聚类获得聚类结果的上界(核心域和边缘域的并集),并使用扰动分析的方法将核心域从上界中分离出来。上界和核心域之间的差集被视为特定类簇的边界域。因此,获得了类簇的三支表示即三支聚类结果。同时,我们将谱聚类算法应用到TWKM模型上形成了三支谱聚类算法(TWSC)。通过计算TWKM模型以及TWSC算法聚类结果中核心域的Accuracy(ACC)、Davies-Bouldin Index(DBI)、Average Silhouette Coefficient(AS)等指数的值。实验结果表明,这种模型可有效改善聚类结果的结构,提高聚类精度。
其他文献
随着防火安全标准的日益严格,近几年来全球阻燃剂市场的需求一直呈增长趋势,各国的研究人员也在不断地进行阻燃剂的开发和应用研究。磷酸酯系列阻燃剂品种多,资源丰富,价格低
近年来,随着高速公路里程不断延长,车流量节节攀升,因高速公路抛洒物诱发的事故数量激增。而在这些抛洒物中,大多为货车上未捆扎严实而掉下的货物或者汽车故障掉落的碎片,这些体积小而坚硬的物体,对高速公路司乘人员的安全带来了极大的威胁。因此对高速公路小目标抛洒物进行实时、准确地检测成为亟待解决的问题。不同于高速公路上的机动车、非机动车、行人等目标,抛洒物不具有图像上的通用特征,因此本文通过前景提取和噪声去
随着我国环境矛盾日益凸显,压力继续加大,环境问题逐渐引起人们的关注。企业作为社会生产的最主要成员,其在创造收益的过程中对环境构成的破坏越来越不容忽视,然而企业为了其
在粳稻育种中,直立的穗型结构有助于水稻获取更高的产量。在分子分析中发现了dep1等位基因是控制穗型的多效基因,并揭示了直立穗型增加单株产量的机理。与单株产量相比,水稻群体的产量就显得格外重要了。因此在水稻育种生产中,群体结构对产量及品质的研究也变得越来越重要。本研究比较了在两种密度与两种肥力处理下的一个弯穗品种Sasanishiki(WT)和一个由CRISPR/Cas9基因编辑技术编辑而来的直立穗
细胞壁和叶绿体是决定植物机械强度和籽粒产量的两个基本结构。因此,了解植物细胞壁强度的提高和叶绿体的发育机制对农业活动至关重要。在本研究中,我们鉴定了一个新的水稻突变体bz1(brittle zebra 1),具有脆秆和斑马叶表型。bz1突变体细胞壁结构和组成发生改变,叶片叶绿体膜发育异常。分子生物学和生物化学分析表明,BZ1编码一种功能性的UDP-半乳糖/葡萄糖差向异构酶(UGE),在植物生长发育
本文通过非耦合以及耦合模式研究风场和波浪场多尺度变化及耦合机制。首先利用非耦合高分辨率的大气和波浪数值模式:WRF(Weather Research and Forecast)和SWAN(Simulating W
近年来,生物可降解聚合物吸引了科学家的广泛关注,它可以作为塑料的替代品,从而减少塑料废物造成的污染。脂肪族聚酯在从廉价的日用品到昂贵的特殊复合材料(包括先进的医疗材
随着智慧城市理念的提出和机器学习技术的不断发展,城市计算已成为当前热门的研究领域。本文借助机器学习的方法对城市计算中城市酒店发展趋势问题进行了深入研究,主要采用迁移学习的方法对城市数据进行分析和挖掘。与已有工作相比,本文在城市相似度衡量方法和迁移学习方法在城市酒店发展趋势预测中的应用上提出了不同实现方案,并通过设计实验和实际算法可视化系统的应用验证了方案的正确性和可行性,作者独立完成了如下工作:城
木质纤维素生物质作为世界上含量最为丰富的可再生资源,其应用十分广泛。但是由于木质纤维素结构较为致密导致其利用率低。为了使得木质纤维素能够综合利用,本论文对其预处理
近些年来,资源问题成为全球关注的重点问题。随着我国经济的飞速发展,矿石资源在不断被挖掘利用的同时要值得注意的是,我国的金属矿资源相对品位较低,并且含有大量的杂质金属