基于集成和不平衡的有/无监督学习方法及应用研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:gqkhao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现今时代是一个人工智能时代,机器学习作为其重要组成部分获得了巨大的发展,尤其是在有/无监督学习领域。然而随着计算机技术的快速发展以及社会需求的不断改变,产生了越来越多的新兴复杂应用场景,例如单一分类器无法适用所有场景、不同类别的数据量严重不平衡以及聚类形状复杂等。这给有/无监督算法提出了更高的要求,许多传统有/无监督算法在面对这些复杂的数据场景时,遭遇前所未有的挑战:1)在有监督学习领域,单一分类器的应用场景受限,而现有的集成学习方法对多样性考虑不充分、无法获得令人满意的分类效果;实际应用中的不同类别数据分布不平衡严重影响传统分类器的分类效果;2)在无监督学习领域,聚类中心没有实际意义、聚类个数无法提前设置且数据形状不规则影响聚类效果。针对上述挑战,本文主要聚焦有监督学习领域的集成学习和不平衡学习,以及无监督学习领域的聚类算法,并探讨相关算法的改进及应用,以期得到具有更优性能的分类算法和聚类算法。本文的主要研究成果如下:(1)提出了一种基于负一致性学习的集成支持向量机算法(Ensemble Support Vector Machine based on Negative Agreement Learning,ESVM-NAL)。该算法将负一致性学习作为一种显式多样性度量方法,利用整体学习策略训练整个集成模型及其子分类器,从而确保算法的准确性和多样性。理论分析表明,ESVM-NAL等价于另一个特征映射空间上的单个SVM,因此可以保证存在全局最优解,并可以方便地采用已有的单个SVM的训练方法进行训练,无需重新设计用于集成学习的特殊训练方法。(2)提出了一种动态更新拉普拉斯最小学习机算法(Laplacian Least Learning Machine with Dynamic Updating,L~2MM-DU)。首先利用拉普拉斯矩阵在传统成本敏感算法基础上加入样本之间的关系,并以此设计拉普拉斯最小学习机,从而在能够适用不平衡分类场景的同时继承了最小学习机的快速学习和良好泛化能力。然后采用增量学习的方式对拉普拉斯最小学习机进行改进,实现了动态更新模型找到最优的隐节点个数且无需重复计算逆矩阵,在保证不平衡分类性能的基础上,缩短了训练时间。(3)提出了一种基于密度的模糊代表点聚类算法(Density-based Fuzzy Exemplar Clustering,DFEC)。该算法结合了代表点聚类、密度聚类和模糊聚类的优点,无需提前设定聚类个数,且能够自动确定真实存在的聚类中心点,具有自适应性和可解释性。在聚类过程中,DFEC首先通过样本密度对每个样本成为候选聚类中心点的可能性进行预估,再利用模糊思想来确定聚类中心点并以此得到对样本的软划分,最终实现对样本的有效聚类。在人工数据集及UCI真实数据集的实验结果表明该算法较其他聚类算法有更好的自适应性和聚类准确性。(4)提出了一种基于中低层结合的图像感兴趣区域标注方法(Region of Interest Marked for Image by Low and Middle Level),对聚类算法在图像领域的应用进行了研究。该方法利用中低层次信息相结合的方式确保中低层信息相互补充,从而得到可靠结果。中层次显著图由改进的Harris角点形成的凸包区域与GBR(Graph-based Relaxed)超像素聚类结果相结合得到。低层次信息由不同权重的高斯差分滤波器对图像进行处理得到。最后通过加权融合两个层次显著图得到最终结果。利用微软亚洲研究院提供的公开数据库(MSRA)进行的实验表明该方法能有效消除背景噪声,准确且明显地定位显著度区域。
其他文献
动车风源系统是为制动系统提供洁净风源的重要系统,其正常稳定的运行对于制动系统乃至整个动车组的安全行驶都至关重要。现阶段风源系统故障的检测更多依靠车辆入库时人工的检修,无法保证全天候的故障检测和检测的全面性。解决该问题的前提是不间断、实时获得风源系统的状态数据,因此设计一套针对风源系统的数据采集系统具有深刻意义和重要的应用价值。本文主要工作内容如下:首先,分析了风源系统的基本组成和工作原理,对风源系
根据断层滑冲方向以及地震动传播机制的差异性,可以将近断层脉冲型地震动分为近断层向前方向性脉冲地震动和近断层滑冲型脉冲地震动。这两种脉冲型地震动由于其速度脉冲形式的不同而展现出不同的脉冲特性和长周期特性。本文利用基于能量的速度脉冲识别方法从台湾集集地震数据库中选择向前方向性脉冲地震动和滑冲型脉冲地震动各10条,将脉冲型地震动中的速度脉冲提取出来得到剔除速度脉冲的剩余地震动,并将脉冲型地震动与剩余地震
微机电(MEMS)加速度计是一种通过微机械加工工艺制作的新型微惯性敏感器件,相比于传统的加速度计,它具有尺寸小、成本低、功耗低的特点,然而目前微机电加速度计的精度较低,还
当前我国的空间规划形成以城乡总体规划、经济与社会发展规划和土地利用总体规划等多重规划并行、其他规划辅助的格局,但是过多的规划导致规划之间出现交叉、重叠、冲突等问
植物枝叶性状是衡量植物生长状况的重要指标,影响植物获取光照、水分等资源的程度,植物枝叶性状与光合特性的关联性研究,有助于理解植物叶片的光合产物分配与能量分配之间的
生物质能是唯一一种可再生的碳源,生物质热解是生物质能的一种非常重要的利用形式,并且可以认为是其三大组分纤维素、半纤维素和木质素热裂解行为的综合表现。但生物质直接热解后的产物复杂且难以分离,因此本课题基于生物质组分热稳定性的差异,选取了生物质分段热解的形式使其热解产物得以初步分离,优化生物油的品质。由于热解温度、生物质种类等是生物质热解的重要影响因素,针对不同种类生物质热解过程中组分协同作用的研究相
生物质热解多联产是生物质资源化利用的有效手段之一,但热解所制得产物品质较低,难以直接利用,因此预处理技术尤为重要。烘焙预处理技术因其能提高生物质能量密度,改善其组成结构而逐渐受到关注。烘焙预处理在提高热解生物油品质的同时使得热解焦产率增加并一定程度上改变了其微观结构,将烘焙热解焦用于制备生物质基活性炭是一个很好的利用方式。因此,本文以稻壳为原料,研究烘焙热解过程特性及固体产物理化性质,通过固定床实
活性污泥法自开创以来已经成为世界上应用最广泛的废水生物处理工艺。然而,污泥膨胀问题已经严重制约了活性污泥工艺的运用和发展,是污水领域亟待解决的重要问题。目前有关污泥膨胀机制的研究较多,但大多以工艺层面为基础,从动力学的角度揭示和模拟污泥膨胀过程,并没有从微观层面直接揭示丝状菌的膨胀机理。因此,本研究利用“SBR反应器启动和运行-污泥膨胀的诱发-不同膨胀程度污泥表面理化特性分析-污泥膨胀机制”的研究
工程造价管理作为项目管理的核心内容之一,其管理成效直接影响项目的最终价值。在竞争激烈的市场经济体制下,良好的造价管理可以带来高质量、高利润的项目。采用科学的管理方
随着高铁技术的发展,钢轨故障诊断技术变得越来越重要。本文研究了钢轨故障诊断的方法,提出了一种故障诊断的数学模型,针对钢轨振动信号进行特征向量提取。根据信号的固有特