基于视图特征学习的聚类方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:meiwanmeiliao2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类作为数据挖掘的主要技术之一,经历了半个多世纪的发展,产生了大量优秀的聚类方法。尤其随着近十年来深度学习技术的飞速发展及广泛应用,基于深度学习的聚类将聚类研究推向了一个新的高度。为了更全面地了解某一事物,人们往往从不同的角度或不同的途径对同一事物进行刻画,获取的数据集称为多视图数据。如何充分挖掘不同视图角度的特征,进而提升聚类性能显得尤其重要。现有的大多数聚类方法仍然存在着特征提取不全面这一问题,特别是针对多视图数据的特征学习问题,这些因素将直接影响到最终的聚类性能:第一,在实际应用中,数据集往往存在少量的标签数据或极易获得少量标签数据,这些标签数据对特征学习网络的训练起着极为重要的作用。然而,现有的聚类方法多基于无监督的框架,不能有效地利用标签数据。同时,现有的大多数半监督聚类,都仅仅将无标签数据的特征直接用于聚类,没有考虑其对特征学习网络的促进作用。第二,随着数据表示的多样性,同一事物存在多视图描述数据。不同视图数据既存在一致性信息,也存在一定的特定性信息。目前多视图聚类方法的研究重点是将多视图数据通过某种融合方式得到一个最佳的聚类结果,然而这些方法都是从一致性角度去考虑,将数据在不同视图上的一致性信息最大化作为多视图聚类的目标,忽略了数据在不同视图上的特定性信息,获得的多视图特征存在片面性。第三,不同视图数据的特征分布往往不一致,且不同视图样本的质量往往不均衡。一些研究者借助于生成对抗网络(Generative Adversarial Networks,GAN)将不同视图特征映射到一个潜在的特征子空间,从而捕获不同视图数据的特征分布。然而,这些方法没有考虑到不同视图样本质量不均衡的问题,即部分视图样本质量较好而部分视图样本质量偏低的情况。本文针对聚类中视图特征学习所存在的以上问题进行了深入的分析和研究,取得了一些有价值的成果:提出了一种基于深度度量学习及标签扩散的半监督聚类框架,包含特征学习和标签扩散两个阶段。在特征学习阶段,采取了两种不同的度量学习网络,即基于对比损失的孪生度量学习网络和基于三元组损失的三胞胎度量学习网络,来提取数据的深度特征;在标签扩散阶段,同样采用了两种不同的策略,即简单快速的k近邻标签扩散策略和充分有效的双重验证标签扩散策略,从而将无标签数据动态的更新为标签数据,进而更加充分地利用无标签数据。在Mnist、Cifar-10、Yale B和20-Newsgroups四个数据集上的实验结果表明,所提出的方法在聚类准确性ACC和归一化互信息NMI两项指标上比对比算法至少高出2.2%和1.1%。提出了一种基于邻域相关性的多视图聚类方法。该方法利用子空间学习技术,将不同视图特征映射到一个共同的子空间。在此子空间中,最大化样本的一致性邻域相关性,同时最小化样本的特定性邻域相关性,从而使得学习到的特征不仅能够最大化多视图数据间的一致性信息,也保留了各视图的特定性信息。在UCI、Caltech7、BBCSport和CCV四个数据集上的实验结果表明,所提出的方法在聚类准确度ACC,归一化互信息NMI,调整兰德指数ARI,精度Precision,召回率Recall和F1值六项指标上比对比算法至少高出6.5%,3.3%,3.9%,3.9%,4.3%和4.3%。提出了一种基于共有特定信息的深度多视图聚类方法。首先,通过两个深度特征提取网络分别提取每个视图上的共有信息特征向量和特定信息特征向量。然后通过GAN技术,使得从各个视图中提取的共有信息特征向量尽可能的相似,从而最大化不同视图上的共有信息,同时通过引入正交约束,最小化共有信息特征向量和特定信息特征向量之间的相关性。最后,将学习到的共有特定信息传入到聚类网络进行迭代训练。在UCI、BDGP和CCV三个数据集上的实验结果表明,所提出的方法在聚类准确度ACC,归一化互信息NMI和聚类纯度Purity三项指标上比对比算法至少高出1.6%,2.2%和0.3%。
其他文献
手术切除、意外事故和炎症等引起的骨损伤影响患者的生活质量,甚至导致残疾。内固定通过植入物将损伤的骨固定在一起,是治疗骨损伤的常用方法。由不锈钢和钛合金等金属制成的植入物强度较高,能够提供良好的固定作用,但是它们的杨氏模量远高于人体骨,会引起应力遮挡。此外,不锈钢和钛合金不可降解,长期停留在体内可能导致移位、有害金属离子释放等问题,严重时需要通过手术取出。对于结构性骨缺损,常采用自体骨或同种异体骨进
学位
极化码是第一类被严格证明可达二进制离散无记忆信道容量的信道编码技术。当极化码码长无限时,信道极化为纯噪信道和无噪信道,信息便在无噪信道下可靠传输,由此获得香农限可达的优异性能。但实际应用中,码长的限制使极化码无法充分发挥其独特优势:有限码长情况下,出现部分有噪信道,传输信息时极易出现差错,而串行相消(Successive Cancellation,SC)译码算法的差错传播问题会进一步降低译码成功概
学位
文章论述了利用思维导图推进课文阅读的活动策略,详细地剖析了利用阅读思维导图,提高课文预习的效果,清晰地梳理课文的结构脉络,助力学生加深对课文语言的研读与品悟,积累、内化和运用语言,培养学生个性化阅读能力、创造性阅读能力和语用能力,完善和提升学生阅读认知,推动课文阅读活动逐渐走向深入。
期刊
目的·探讨基于“互联网+”的心脑血管疾病“协防共管”健康管理模式对社区重点监测人群的血压改善效果。方法·选取2020年1月—2021年7月在广州市增城区新塘镇参与国家基本公共卫生服务项目年度体检至少2次的社区重点监测人群,按照是否接受“互联网+”心脑血管疾病“协防共管”健康管理模式将其分为常规治疗组(n=2 987)和“协防共管”模式组(n=2 876)。常规治疗组接受常规模式管理,即每年1次的常
期刊
<正>语文教材中的主题图是编者根据课文内容精心安排并绘制的重要课程资源。这种主题化的内容形式兼顾情境互动与主题凸显的双重功能,在文本整体性上与传统教材中的单图呈现与零散配图存在显著差异。低年级教材中的主题图,更是学生开展多种语文学习实践活动的凭借和支架,是学生与文本进行对话的桥梁,具有重要的教学意义。一、以主题图激发学习兴趣兴趣是学生学习动力的源泉。课文中的主题图具有生动的画面、
期刊
半导体激光器由于具有电光直接转换、响应速度快、体积小、可靠性高、使用寿命长等特点,被广泛应用于光存储、光传感、光通信等领域。现有的边发射半导体激光器多为分布反馈(Distributed Feedback,DFB)激光器和分布式布拉格反射(Distributed Bragg Reflector,DBR)激光器,这两类激光器均采用了掩埋光栅结构,器件制作时需用电子束光刻(Electron Beam L
学位
理解信息如何在神经网络中被处理的原理是神经科学研究的中心目标。眶额叶作为前额叶的主要结构之一,执行很多高级的功能,例如奖赏、控制和抑制不恰当的行为、对特定行为结果进行评估等。眶额叶的损伤往往会导致精神疾病,如抑郁症和强迫症。眶额叶的众多功能是通过其神经环路实现的,因此研究眶额叶的神经环路机制是解析其功能和复杂疾病机理的前提。眶额叶作为异质性的脑区,包含不同的神经元类型。然而,这些不同类型的神经元全
学位
肿瘤转移导致90%的人类癌症患者死亡。大多数实体肿瘤常通过淋巴系统发生转移。乳腺癌是女性高发的恶性肿瘤之一,乳腺癌患者中发生腋窝前哨淋巴结转移的五年生存率,比未发生转移的患者降低约40%。目前临床上判定乳腺癌是否已经发生了远端转移所采用的手段主要是实施前哨淋巴结切除活检(Sentinel lymph node resection biopsy,SLNB)。但前哨淋巴结切除的同时会引发一些副反应,如
学位
由于存储需求的快速增长,硬盘作为最主要的存储介质,其存储密度急需提升。然而,硬盘存储密度的提升近10年因受困于“三难问题”而发展趋缓。虽然热辅助磁记录等技术有进一步提升密度的空间,但潜力不大。光致磁变现象的发现不仅为硬盘存储密度大幅提升提供了一条全新思路,其亚皮秒级的磁动力学过程还可大幅提升硬盘的写入速度。因此,光致磁变现象吸引了众多领先的研究机构的关注。尽管经过全球学者的努力,在光致磁变的实验方
学位
目前,随着光纤激光器功率的攀升,传统小芯径光纤纤芯内的光功率密度不断增加,带来严重的非线性效应。同时简单地增加纤芯面积会引起光束质量和模式不稳定阈值下降等一系列的问题。降低纤芯中光功率密度,进一步提高运转功率的主要技术方案是使用新型大模场单模运转光纤。但现有的新型光纤,一方面由于难以弯曲、制备工艺难度过高等原因,尚未得到大规模生产与应用。另一方面,更大的模场面积与更高的运转功率也带来了更严重的光热
学位