成对约束半监督聚类算法研究

来源 :中国矿业大学 | 被引量 : 0次 | 上传用户:xypcs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
半监督聚类算法是将传统聚类中加入了半监督学习思想而形成的一种新型算法,可以运用监督信息对聚类进行引导,监督信息可以分为成对约束和独立的类标签,但是在现实生活中,独立类标签往往需要大量的精力才可以获得,而样本之间成对关系的确定较为简单,所以考虑通过成对约束的监督信息来让聚类性能得到提升。但传统半监督聚类的缺点也是不可忽视的。首先初始先验集合的筛选具有随机性,其次在数据集中,带有监督信息的样本点数量远远少于未标记样本点的数量,此时通过主动学习可以对未标记样本数据进行训练,但已有的结合主动学习的半监督框架都具有较高的迭代时间,最后,目前为止成对约束在模糊聚类等软划分的方法上也可能会出现局部最优的情况。针对上述问题,本文对成对约束的半监督算法进行了研究。具体内容如下:针对已有的主动学习半监督研究框架和模型中迭代不稳定且先验信息选择上的随机性,本文考虑运用密度准则对先验集合进行确定,并通过主动学习,对未标记样本中不确定性最大的点进行主动约束标记,并对其约束条件进行了重新定义,通过对传统的半监督聚类进行了改进,提出了基于主动学习的稳定Cop-Kmeans聚类算法(Iterative Stable Cop-kmeans Clustering Based on Active Learning,ISCC-AL)。ISCC-AL算法分两部分进行,分别是构建稳定先验集合和主动迭代框架。通过标准数据集上的实验结果可以看出该算法相比传统半监督聚类,在聚类结果和迭代时间上都具有更好的性能。现实生活中数据集较多都是模糊性的,为了解决由模糊性导致了错误划分情况,同时加入成对约束,提出了改进的基于交叉熵的主动半监督模糊聚类算法(Active semi-supervised FCM based on Cross-Entropy,ASFCM-CE)。该算法通过添加权值和交叉熵对目标函数进行改进,并在后续过程中,主动对边界较为模糊点进行约束标记,从而使得聚类边界划分更加清晰。最终通过实验,本文算法可以得到更高的准确率。该论文有图28幅,表14个,参考文献111篇。
其他文献
对一个稳定光场的空间分布进行完整的描述,需要用到强度和相位两个物理参数。传统光学成像技术一般仅利用光的强度信息对样品进行观察和测量,对于透明或者近似透明样品,所获
伴随着工业的急速发展,深度学习由原来无人问津到应用十分的广泛,其中目标检测研究方向是深度学习中比较重要的一部分,而且发展十分迅速,被业界越来越重视。由于检测环境越来
本文主要利用研究强极限的一种新方法来推广非齐次马氏链泛函的广义强偏差定理和熵定理,任意信源关于非齐次马氏信源广义相对熵的下界估计,树指标齐次马氏链相对熵的估计.研
丹参(Salvia miltiorrhiza Bunge)是唇形科鼠尾草属植物,其药用部位根和根茎中含有多种活性成分,被广泛应用于心血管类疾病的治疗。丹参具有外源基因转化体系成熟、基因组小
本文利用拉格朗日气流轨迹模式HYSPLIT对华南前汛期的水汽输送过程进行后向追踪模拟,结合“海量气块追踪法”研究华南前汛期水汽输送路径,确定影响其水汽输送的关键区,并利用
随着互联网的迅速发展和普及,网络上涌现出了大量表达观点和情感的用户评论文本。仅靠人工的方法处理和分析这些文本包含的情感信息费时费力。因此,迫切需要相关的技术快速进
半导体技术作为现代信息技术的支撑性技术,有着非常广泛的应用基础。然而,随着半导体器件的尺度不断减小,芯片的集成度大幅上升,半导体技术已经逐渐逼近传统硅工艺的极限,人
1,8-萘啶衍生物是一类具有良好光化学性质、可与多种过渡金属有优异的配位能力、同时具备多样特定的生物活性的有机化合物,被广泛用于有机合成、新型化学材料和生物医疗等领
以磷酸铁锂与硅酸铁锂为主的聚阴离子型锂离子正极材料在动力电池领域有着巨大的开发潜能。这类材料在热稳定性、安全性与循环性能方面表现优秀,原料环保、成本低有利于产业
基于图的半监督聚类是较为典型的半监督学习方法,通常以无符号图表征数据,以非负权重衡量节点间相似性。真实复杂系统中,无符号图难以区分无关和对立关系,而符号图中负边则可