基于成对约束的半监督聚类集成算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:Z_L_Q
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的快速发展使得数据的存储与利用被广泛的研究,聚类作为数据挖掘中一种重要的方法,能够仅根据数据中简单的描述关系信息对数据进行适当的分组.然而,传统的聚类算法具有不稳定和鲁棒性较差的缺点,这使得在许多聚类任务上往往无法达到预期的聚类效果.为了提升传统聚类算法的性能,研究者利用少量数据的先验信息(成对约束)和应用集成学习的思想,分别提出了半监督聚类和聚类集成方法来改善传统聚类的缺点.而半监督聚类集成算法能够结合这两类方法的优势取得更好的聚类效果,受到越来越多的关注.已有的半监督聚类集成算法很少考虑将先验信息利用在集成过程中,并且平等地对待所有的簇,忽视了不同簇的质量对最终聚类结果的影响,从而无法对聚类集成中样本相似性更精确的定义.因此,本文提出了基于约束权重的两阶段半监督聚类集成算法.该算法首先定义每一对约束的权重来区分不同约束的重要性.在第一阶段,在考虑先验信息的情况下,基于基聚类的质量和多样性来选择一组合适的基聚类子集,以减少冗余基聚类的影响.在第二阶段,同时考虑基聚类的标签信息和先验信息以定义每一个簇的质量.最后,以加权共联矩阵作为一致性函数,得到最终聚类结果.针对半监督聚类集成算法在高维数据上的聚类精度较差和先验信息有时难以获得的问题,提出一种基于拓展约束投影的加权半监督聚类集成算法.该算法首先利用多种聚类算法对数据的特征空间进行聚类,并利用随机子空间技术对数据进行降维.该过程可以减少无关特征的选择,保证子空间的多样性.然后,根据约束间k近邻的关系扩展原有的约束集,并使用约束投影技术对数据进一步降维.最后,设计了一个基聚类的加权策略.该方法在一致划分阶段为每一个基聚类适当地分配一个权重,以减少低质量基聚类对最终聚类划分的影响.为了说明两种算法的有效性,本文在UCI、图像和基因表达数据集上进行了多种实验.实验结果表明所提出的两种算法在大部分数据上优于对比的聚类集成算法或半监督聚类集成算法,聚类性能得到一定的提升.
其他文献
作为电子鼻系统核心的气体传感器阵列排布在测试腔室中。由于传感器的响应受传感器表面的气味浓度和气流的流场形态影响,参照鼻腔结构对气流流场的影响,可推知电子鼻腔室的结构对气体传感有重要的影响。因此,优异的腔室结构设计能够改善传感器阵列的响应与恢复,进一步提升电子鼻系统的性能。本文的研究目标是基于计算流体力学模拟设计一新颖且优异的电子鼻腔室,以求增大传感器阵列的响应强度、缩短响应时间和恢复时间。此外,通
学位
高镍三元正极材料LiNi0.6Co0.2Mn0.2O2(NCM622)具有放电比容量高、能量密度大、成本低廉等优点,是一种极具发展潜力的动力型锂离子电池(LIBs)正极材料。然而,倍率性能和高截止电压下循环稳定性差以及低温环境下容量衰减严重等问题限制了其在LIBs中的进一步应用。本文对NCM622正极材料进行掺杂改性研究,系统研究了其高倍率性能和低温性能。结合TEM、SEM、XRD精修、原位XRD
学位
过渡金属硫族化合物中原子级厚度的二硒化钨(WSe2),因具有良好的载流子迁移率及1.60 e V(单层)的禁带宽度,所以在光电子器件及微电子器件等应用方面有效地弥补石墨烯零带隙的缺点。此外二硒化钨的表面无悬挂键,原子层厚度的材料制作成的晶体管有望减少短沟道效应,在后摩尔的时代发展前景十分广阔,因此二硒化钨成为目前科学家们的研究热点之一。研究已经表明,应变可以调控材料的能带结构和激子跃迁,从而在传感
学位
学位
光电信号转换在我们日常生活中具有举足轻重的地位。视频成像、光通讯、生物成像、安全、夜视、气体传感和运动监测等设备都需要高性能、大面积的光电信号转换技术。基于原子层厚度的二维过渡族金属硫化物的新型光电探测器兼具高速、宽谱、柔性等优点,备受研究人员关注。而二维半导体光电探测器的响应度和响应波长尚不能满足硅基光子学等应用的要求,严重制约了二维半导体器件的集成和应用。硅通常在约1.5%的应变下就会发生断裂
学位
聚类作为一种重要的数据挖掘方法,能够发现未知数据的潜在模式,进一步指导实践.传统聚类算法受参数或数据类型影响,往往表现不佳.集成聚类通过学习多个模型来解决一个问题,从而获得一个准确度和鲁棒性都更强的结果,在一定程度上缓解了单个聚类算法的困境,拓宽了聚类算法的应用场景.目前已经形成了很多集成聚类算法,但是仍存在三个问题:一是侧重于集成策略的设计,忽视了生成阶段基聚类质量对最终聚类结果有着直接的影响;
学位
DNA结合蛋白是一种由结构蛋白组成的复合型蛋白质,这类蛋白质在特定的核苷酸序列识别、DNA复制和重组、基因转录调控和其他DNA相关活性方面发挥着重要作用。而N6-甲基腺苷作为已知最丰富的RNA甲基化修饰之一,它与结构动力学、RNA定位和降解、选择性剪接、细胞分化、m RNA稳定性和翻译等生物过程息息相关。据研究表明,它还与多种疾病密切相关,例如:前列腺癌、急性髓系白血病、甲状腺肿瘤等。故对DNA结
学位
微电子、计算机、集群技术的蓬勃发展,使得无人机(Unmanned aerial vehicle,UAV)的生产成本逐步降低,并且功能愈发强大。单架无人机可用于执行多个任务,但受限于其所搭载的武器弹药、侦测设备、最大航程、飞行速度等因素,导致其无法独立完成多个目标点的侦察和攻击任务。因此,无人机协同执行多任务问题越来越受到军事和民用专家及学者的关注,世界各国纷纷将集群作战作为未来执行任务的新样式并开
学位
我国制造业面临日趋激烈的市场竞争,行业内竞争者众多,产品同质化严重,企业保留客户变得十分困难。与此同时,随着客户产品渠道与信息来源丰富,客户转换供应商更加自由。面对这样的竞争局势,提高客户的转换成本成为企业与客户保持长期关系、预测客户保留和建立客户忠诚度的不二选择。但是企业缺乏控制转移成本的手段,因此,如何利用转换成本来锁定客户成为企业亟需解决的问题。现有研究主要关注于转换成本的结果变量,对其前因
学位
近年来,有机-无机杂化钙钛矿电池(PSCs)因空穴电子迁移率高、载流子扩散长度长、宽波长范围内吸光系数高、带隙可调(1.15~3.06 e V)、光电转换效率(PCE)高(25.7%)等突出优点,使得钙钛矿基叠层太阳能电池被认为是有望突破单结太阳电池理论效率极限、效率达到30%以上的可行解决方案。在钙钛矿基叠层电池中,带隙为1.65~1.75 e V的宽带隙钙钛矿(WBPs)可有效吸收太阳光谱短波
学位