半监督聚类算法的若干关键问题研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:eric73384
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
半监督聚类作为一种重要的半监督机器学习算法,广泛应用于图像分割、文本处理、语音识别等领域。本文将围绕半监督聚类的噪声、成对约束度量、成对约束选择三大问题开展讨论。从类簇边界样本扰动角度求解噪声问题,并提出了成对约束纠正的研究思路;从样本类簇的不确定性角度出发,提出了对称相对熵度量;在主动学习框架下,以类簇信息为基础,构建成对约束并进行标记。论文的主要研究内容具体包括:针对半监督聚类的噪声问题。本文提出了基于成对约束的半监督噪声聚类算法。算法利用交叉熵学习成对约束样本的隶属度,进而实现基于成对约束半监督信息的样本辅助划分,有效地对边界样本进行类别纠正,以此达到弱化样本噪声干扰的目的。在2个聚类算法常用标准数据集中添加6个不同噪声开展的数值实验表明,该半监督噪声聚类算法不仅能够有效抑制噪声影响,还可以融合成对约束半监督信息提升进而聚类性能。针对半监督聚类的成对约束度量问题。本文提出了基于对称相对熵度量的半监督模糊聚类算法。将成对约束度量问题转化为不确定性度量问题,研究两样本间散度度量模型。在相对熵基础上,考虑其非对称性,提出对称相对熵模型,有效地学习样本间及样本内的不确定信息。在2个UCI数据集上进行实验表明,算法能够解决原有模型非对称、硬划分等问题。由此也获得了更加精准的样本划分结果。针对半监督聚类的成对约束选择问题。本文提出了基于主动学习的成对约束选择算法,研究利用类簇信息代替样本特征信息,获取最有用的成对约束,同时对标记过程进行优化,以达到用最少代价获取最多有用成对约束的目的。算法分为Pre-Clustering和Marking两阶段实现。在Pre-Clustering阶段,算法通过FCM获取样本隶属度及类簇中心。在Marking阶段,利用样本隶属度和类簇中心定义弱样本与强样本,并以此获得成对约束。同时在主动学习框架下,提出次小对称相对熵优先准则对成对约束进行标记。在6个常用数据集上进行实验,实验结果表明,算法能够更加显著提升半监督聚类算法划分样本准确性,同时也减低了成对约束标记的成本。
其他文献
随着现代机械设备在交通领域的智能化发展,其故障诊断技术面临着新的挑战。轴承作为高速列车走行部的一个重要组成部件,其故障的复杂性、不确定性导致对故障诊断的需求尤为突出。轴承运行在复杂条件下可能会发生复合故障,即同时发生两个或多个故障。传统的轴承故障诊断方法对故障特征提取有限,可能丢失有用的信息。深度学习技术的发展,解决了特征提取的问题,这为轨道交通等领域的现代机械的轴承故障诊断研究提供了一种新的思路
剩余寿命预测是保障产品使用安全、提高设备使用经济性的重要手段,滚动轴承作为机械设备的重要零部件,开展其剩余寿命预测研究具有重要的现实意义。然而滚动轴承寿命受制造工艺、材料一致性、运行工况条件等的耦合影响,导致其在使用中出现较大的个体差异性,这为寿命预测带来了困难。特别是在较小的产品全生命周期数据样本集条件下,通过机器学习来准确预测样本外同型号产品个体的使用寿命,是一个研究挑战。针对以上问题,本文首
植物内生菌与植物长期共生,可产生多种与宿主植物类似活性化合物,是目前寻找天然活性成分的重要资源。本实验以药用植物茵陈为目标,对其内生细菌进行分离纯化鉴定,从中筛选活性菌株,对发酵产物相关性质进行研究,分离纯化出次级代谢产物,并对产物进行活性测试。具体研究内容及结果如下:以茵陈为研究对象,采用组织分离法,经多次分离纯化从茵陈中筛选出52株内生细菌,通过形态学观察与16Sr DNA技术相结合的方法鉴定
2014年11月10日,中国证监会正式批复“沪港通”成为第一个互联互通试点。2014年11月17日,沪港通正式开通。作为互联互通政策的首个试点,沪港通是我国资本市场开放的重要一环。自沪港通开通以来,诸多学者从沪港通对市场联动性、波动性、股价信息含量、企业融资约束、投资效率、经营绩效等角度研究沪港通政策的效果。已有文献多从“外部增益”角度,即境外资本增益和境外机构投资者治理角度,来阐述沪港通影响我国
电子病历是医疗产业向信息化、智能化发展的重要组成部分。因为电子病历包含大量临床医学知识,其信息抽取成为构建医疗系统知识图谱的关键一步,其中实体识别和关系抽取是电子病历信息抽取中的重要部分。本文主要研究基于语义表示模型的中文电子病历实体识别和关系抽取方法。首先,本研究结合现有语料库构建方法及标准,对6671份经去隐私处理的中文电子病历进行了人工标注,构建了一定规模的中文电子病历关系抽取及命名实体识别
对中国的对外直接投资的评估有利于正确认识中国在全球经济发展中的重要地位。当前,中国已经成为了世界第二大国。同样值得注意的是,对于到拉美、亚洲和非洲发展,中国企业很
口音转换是语音转换技术的一种,它旨在将源说话人的口音转化为目标说话人的口音,同时保持源说话人音色不变,可以广泛应用于口音矫正,发音辅助评价等领域。传统的口音转换方法包括声音变形,帧相似度配对,波形拼接等,然而这些方法普遍对音质和音色有所影响。最近,有研究者提出了一种基于音素后验概率的端到端口音转换方法,该方法在音质上有了一些改善。然而,这种方法缺乏对语调和重音的控制,同时效果上也不够稳定。另外,在
变化环境下河道洪水地下水退水规律是水文过程仿真、预测预报的重点和难点。近年来,伴随快速城市化进程,大量不透水铺装地面阻隔了大气水、地表水和地下水间的水力联系,改变径流形成规律和洪涝、干旱等灾害孕灾过程,导致城市洪涝和干旱灾害并存、频发。海绵城市是一种城市雨洪管理理念,其目的是解决城市水问题,平衡人与水的生态关系,借助透水铺装、下凹式绿地和雨水花园等措施替换原有不透水地表,有效结合“灰-绿”基础设施
民生热点事件是在特定时期内人们共同关注和讨论的重大事件,是社会现象和社会矛盾的集中反映。近些年来,民生热点事件的频发反映出社会上一部分人群的价值观和精神信仰与社会主义核心价值观相违背。当代大学生正处在社会信息化大变革的时代,思想行为观念极不成熟,容易受各种思潮的感染和民生热点事件的影响。如果大学生自身没有一个正确的价值判断和自我独立处事的立场,很可能会被民生热点事件的消极方面所左右,导致对大学生的
智能电网的快速发展为电力系统带来机遇与挑战,安全稳定控制系统(以下称安稳系统)日益复杂,对安全稳定控制系统的系统测试迫在眉睫。电力物联网背景下数据质量容易受损,为厂站提供高质量的数据支持尤为重要。基于安稳测试数据的实际情况,本文针对越限数据的辨识与数据修复的处理方法进行以下几个方面的分析研究。首先介绍了安稳系统及其测试方法的研究现状,重点阐述、分析了国内外关于外异常数据辨识与修复的研究现状,并基于