基于持续同调的聚类算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:y4o1999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代科技的不断发展和大数据时代的到来,各种数据类型层出不穷,研究者们需要处理的不仅仅是低维度数据,更多的是各种复杂的高维度数据,同时数据量也迅猛地膨胀。持续同调技术是拓扑数据分析领域中的一项重要技术,它能捕捉高维样本空间中的低维拓扑结构,同时不会损失过多的信息。目前,在持续同调领域有很多的理论和应用研究成果,但是将持续同调与机器学习结合的研究相对较少,主要是持续同调提取出的信息很难直接用于机器学习中,需要对其进行处理。根据代数拓扑理论构造了用于检验拓扑结构演变的测试用例,检验了持续同调刻画拓扑结构的有效性。通过将持续同调信息可视化,证实了持续同调能够明显地区分不同类别的数据样本,同时能够体现数据的拓扑不变性。用这些测试用例对不同单纯复形构造方法进行测试,将利用不同单纯复形提取出的持续同调信息进行分类。用模拟数据对持续图像的向量化过程进行测试,检测到目前的向量化过程会引入拓扑噪声,而这种噪声会降低分类的精确性。基于以上分析,提出了对持续图像的向量化过程的改进方案,最后通过实验验证其有效性,发现改造后的向量化过程能有效减少拓扑噪声。在此基础上,提出了改进的持续图像生成算法MPIGA,能够有效提升持续图像生成过程的灵活性。基于以上的研究和分析,提出了基于持续同调的聚类算法PHBC,并对算法本身特点进行了分析。在模拟数据集和公用数据集上进行了对比实验,提出的PHBC算法在多项指标上均有提升,其中在其中一个模拟数据集上的调整互信息相较于K-Means提升了43.5%。同时相比于现有的聚类算法,PHBC效果更加稳定,随机参数对其结果影响相对较小,在模拟数据集和公用数据集中多项指标的标准差均为最小,其中PHBC在公用数据集MNIST上的准确性得分的最小标准差为0.013,相比于DBSCAN在同一数据集上的准确性得分的标准差降低了45.8%。
其他文献
近年来,深度人脸合成(Deep Fake)技术高速发展,假脸种类日益增多,合成水平也明显提高,为人脸伪造检测领域带来了挑战。目前,已有的人脸伪造检测算法存在泛化性不足的问题。虽然学术界已经产出了很多专注于提高泛化性的检测算法,但是大多数方法存在所提取的检测特征与训练样本所关联的合成方法类型强相关的问题。针对上述问题,基于无监督学习的异常检测思想,对大量真脸样本进行充分学习并重构,通过计算重构误差距
学位
随着计算机硬件性能的提升,三维建模技术被广泛应用于工业制造、虚拟现实以及游戏娱乐等方面。在各种三维建模技术中,最常用的一种建模方式是利用图像进行全自动三维建模,但是这类方法生成的三角网格模型网格质量低、视觉效果差,需要对模型进行优化以提高网格质量、增强视觉效果。因此,如何在优化过程中提高模型的视觉效果成为了网格优化方向的一个亟须解决的问题。为了增强模型的视觉效果,提出了基于特征的三角网格优化方法,
学位
Gremlin是一种函数式、面向数据流的图数据库查询语言,便于使用者编写复杂的查询任务,但Gremlin不能利用自身的数据流特性,导致无法充分使用计算系统的多核资源。数据流编程模型通过数据流分析、任务划分与调度来实现流程序的并行加速,使Gremlin与数据流编程模型结合可以利用Gremlin的并行性。但由于Gremlin特有的动态流特征和算子逻辑,现有的数据流编程模型无法充分利用Gremlin的数
学位
<正> 陈某,女,25岁。于1993年5月25日初诊。患者1年前人工流产后,每至行经必咽喉肿痛,干涩不适,历7~8d经净渐愈,经多方医治无效。近2月来病情加重,不但经期咽喉肿痛较重,而且平时亦干涩不舒,痛苦不堪。 刻诊,月经来潮2d,咽部干涩肿痛,饮食难
期刊
随着人脸识别技术的广泛应用,针对人脸识别系统的攻击层出不穷,为了抵抗这些活体攻击方式,人脸活体检测应运而生。在训练数据域和测试数据域的分布一致时,主流的活体检测方法表现良好,但在面对跨数据域测试和未知攻击时,因为域泛化能力差,模型表现大打折扣。针对现有域泛化方法提取出的活体特征包含干扰信息过多的问题,提出了基于解耦表征学习的人脸活体检测算法。通过特征解耦方法将图像特征分离为活体特征和内容特征,设计
学位
社团是网络中普遍存在的一种结构,通常由具有相同角色或者相似属性的成员组成,往往能反映网络中存在的某种局部特征和功能,社团检测也就成为网络分析的一项基础而重要的任务。随着信息的爆炸式增长,许多网络规模急速膨胀而出现数据过载现象,同时这些网络往往时刻处于动态变化中,而图流是一种能有效处理网络数据过载和快速动态变化的技术手段。但基于图流的局部社团检测是一个新的研究课题,相关研究还处于起步阶段。形式化地定
学位
当前,基于视觉的目标检测研究领域,一些常用的神经网络模型在数据集优良前提下,大多能获得比较高的检测精度,但应用于低光照数据集时,模型的检测效果却往往不能尽如人意。尽管学界也开展了相关研究,但由于现阶段已有的低光照目标检测模型普遍对原始图像的利用率较低,这一问题暂时还未得到较好解决。论文提出并设计实现了一种基于特征融合的低光照目标检测模型,可有效提升对原始图像的利用率,针对低光照目标不仅能获得较好的
学位
点云是三维场景理解的首选数据表现形式,点云的语义分割和实例分割可以将物体分别在类别层面和个体层面加以区分。近年来基于深度学习的方法取得了比传统分割更优秀的效果,但仍存在一定的不足:(1)点云在存储上是无序且离散的,缺少对点与点之间关系的显式表达,这限制了模型对点云局部几何关系的学习;(2)语义与实例分割在结果上存在一定的关联性,为二者的相互促进提供了可能,而这一点往往遭到忽视。对场景理解领域的点云
学位
行人重识别旨在通过一张给定的图片,从多个摄像头捕获的一组图像中进行人员定位,在公共场合寻人、疑犯追踪等方面有着重要意义。虽然目前行人重识别领域有了巨大的进展,但是大部分行人重识别任务都是基于人的衣着纹理进行特征识别,在某些失去服装纹理特性的场景下,如行人换衣或者统一着装的场景,传统模型不够具有辨识力。对相似衣着下的行人重识别方法进行研究,引入人体结构特征辅助行人身份判断。针对全局特征分支,把特征金
学位
现有人脸识别算法在已知场景域下获得了良好的识别性能,但将其直接应用到新场景域时,识别性能却大幅下降,为提升识别性能,它们大多采用域自适应的方法,需要在训练过程中访问新的场景域数据。现实场景中人脸识别算法需要应对各种域变化的挑战,由于新领域数据不可得或者不易得的原因,不可能在训练过程中访问所有域的数据,因此需要识别模型在新领域上具有良好的泛化性能。目前绝大部分域泛化任务使用单源域数据,但是单源域数据
学位