【摘 要】
:
聚类作为数据挖掘领域中一种非常有效的数据分析方法,得到了很多学者的研究,在模式识别、图像处理、数据压缩等领域得到了广泛的应用。所谓聚类就是将数据对象分组成为多个类
论文部分内容阅读
聚类作为数据挖掘领域中一种非常有效的数据分析方法,得到了很多学者的研究,在模式识别、图像处理、数据压缩等领域得到了广泛的应用。所谓聚类就是将数据对象分组成为多个类或簇(Cluster),其划分原则是将具有较高的相似度的数据对象间划分到同一个簇中,而相似度误差较大的数据对象应划分到不同的簇中。传统的聚类算法只能针对一些静态数据有很好的处理效果,而对于近年来引起机器学习和数据挖掘领域重点关注的演化数据,更有待学者们的研究。由于演化数据是随时间的推移数据分布会发生变化、有新数据的出现或旧数据的消亡,那么怎样做到使每一时刻上的数据聚类性能尽可能的好,能够基本正确地反映每一时刻的数据分布;通过聚类发掘数据的演化机制,例如聚类的出现、变化、分裂、消失等;还要使得聚类结果在时间上要尽可能平滑,使得当前时刻的聚类结果与前一时刻的聚类结果尽可能的相类似,已有小部分学者进行了研究。本文着重研究演化数据的聚类问题,研究了两种无监督的演化聚类算法和半监督(带约束)的演化聚类算法,并进行了简单的应用。具体研究工作和成果如下:(1)本文提出了基于时间平滑性的演化聚类框架,其框架是在Chakrabarti等人提出的在线式框架基础上进行修改完善得到的。除此之外,本文还对数据间的相似度矩阵作出了公式定义,相似度计算包括两个部分之和:当前时刻数据间的相似度与时间序列上的相似度。最后,并将框架具体应用到标准谱聚类当中,得到两种新的演化谱聚类算法并进行实验验证。(2)本文提出了演化的双层随机游走半监督聚类算法,其算法是针对处理带有约束信息的演化聚类的。原始的静态双层随机游走半监督聚类算法在处理不断变化增加的数据时,会花费大量的时间与内存,并且不能得到很好的效果。本文在双层随机游走半监督聚类算法的基础上很好的利用之前时刻的信息,通过在高层随机游走时求解组件间的两两相似度直接加入前一时刻旧数据信息,大大减少了计算的时间,更好的处理演化半监督数据,能够得到较好的聚类结果。(3)本文设计了一种演化的人脸聚类系统,此系统中的人脸聚类匹配是通过应用本文提出的演化聚类算法来处理的。本系统主要功能包括三个部分:人脸处理(演化聚类)、识别结果显示、文件的管理。
其他文献
1992年中韩建交以来,两国在文化、教育、科技等领域的交流与合作日益活跃。文学是一个国家文化的浓缩,是文化交流的桥梁。通过文学作品,可以了解到他国的文化及生活。因此越来越多的韩国文学作品被译成中文,其中儿童文学占据相当大的比重。儿童文学语言简练、富有趣味且含有教育意义的同时,还具有较高的文学艺术价值。笔者选择了韩国儿童文学作家朴玛娄(音译)的童话集《哥哥出现在梦中》作为翻译对象。该童话集从孩子们的
震源参数,是对地震震源特征的定量表述,包括震中位置(经纬度)、震源深度、发震时刻、地震震级或地震能量以及地震机制解和震源动力学参数等。准确测定地震参数在地震成因研究
标准模型由量子色动力学和弱电统一理论构成,是一套描述强力、弱力及电磁力这三种基本力及组成所有物质的基本粒子的理论。2012年LHC(Large Hadron Collider)上发现了 “上帝
热化是指系统从非平衡态出发,经过长时间演化后可达到一个稳态,并且物理量的期望值可以用传统的统计系统来描述。自从Rigol等人利用本征态热化假设(ETH)解释了热化行为和它原
在当今多元化的经济环境中,工作的难度、复杂性和负荷已经超出了单个工作者能胜任的程度。因此,越来越多的组织广泛地使用一个基本工作单位——团队来取代原来的工作形式(Boy
对于岩土工程而言,目前修建隧道和地下工程的案例逐渐增多,但在建设过程中总会出现随着时间出现围岩变形和隧道开裂现象,围岩变形历时持续增长致使隧洞失稳、塌方等灾害的现象也会发生,对支护结构的有效性和安全性能造成较大的影响。为了提高隧道和地下工程稳定性,常采用锚杆进行加固,但围岩与锚杆支护结构在时变效应下长期相互作用机制并未被熟知。因此,如何合理地考虑围岩流变行为,探究围岩-支护作用间协调变形机理和长期
金融科技企业自2016年起在国内迅速发展,相关监管政策却严重滞后,导致金融科技企业将面临较大的经营风险,本文站在企业经营者角度,对金融科技企业如何利用内部控制进行风险管
本文主要研究线性与非线性Hamilton系统中的一些问题.全文分成两部分.第一部分讨论凸线性Hamilton系统基本解矩阵地R(t)在单位圆周上的特征值的变化规律.假设A(t)(t≥ 0)为连
本文通过化学诱变的方法即用亚硝基胍(NTG)处理疣孢漆斑菌孢子,使其产生随机突变。通过96孔板高通量筛选的方法,筛选出了两株产耐热性能好的漆酶的菌株,命名为MF-01和MF-02,