基于视角学习的分类算法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:zhanghaocong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在机器学习分类算法的研究中,样本是由一系列特征所描述的,而这些特征可以来自一个视角或者是多个视角。根据数据包含视角数量的多少,机器学习算法可以分为单视角学习算法和多视角学习算法。在传统的机器学习应用场景中,数据通常由一个视角进行描述,单视角数据随处可见。随着技术的进步,多元化的数据采集方式以及多样化的特征构造方法使得描述一个问题的角度变得越来越丰富,很多数据集呈现出多视角性。与此同时,随着数据采集设备的迅速发展,在数据时代,我们拥有了越来越多的大规模、高维度的多视角数据。在面对越来越复杂的多视角数据时,许多传统的多视角学习算法因为过高的计算时间复杂度或者无法有效处理高维度数据等原因,往往很难取得满意的学习效果。面对实际应用中,大量存在的单视角数据和越来越复杂的多视角数据,有三种不同的数据处理的方式:单视角学习处理单视角数据、单视角学习处理多视角数据和多视角学习处理多视角数据。基于以上三种不同数据处理方式,本文以视角学习为主线,围绕分类算法,分别从单视角和多视角学习的角度对分类算法展开研究,创造性地提出了一系列单视角和多视角分类学习算法,并探讨了如何有效地处理单视角数据和多视角数据。针对如何使用单视角学习算法更好地处理单视角数据问题,本文提出了两种基于遗传算法的单视角分类学习算法,从优化模型参数和特征选择两个方面着手,提高模型的泛化能力和鲁棒性。在第一种方法中,本文通过使用遗传算法(GA)优化极限学习(ELM)的随机参数,并基于ELM泛化理论提出的了一种排序方法,选择优秀的模型进行集成(GE-ELM,Genetic ensemble of extreme learning machine),从而有效地得解决了 ELM因不良随机参数对模型泛化能力的影响,提高了模型的泛化能力和鲁棒性。在第二种方法中,本文利用GA算法强大的全局搜索能力结合ELM训练速度快的特点,提出了一种包装式特征选择方法(HGEFS,Hybrid genetic algorithm and extreme learning machine for feature selection)。通过提高搜索策略的效率、自动确定最优的模型参数避免不良模型参数带来的偏差和充分利用搜索过程中的对特征的统计信息等手段提高分类的效果。针对如何使用单视角学习算法更好地处理多视角数据以及如何高效地处理大规模多视角数据问题,本文探索了 一种有效融合单视角学习和多视角学习的方法,并提出了 一种基于单视角学习的多视角分类算法(LMVL,a linear computational cost multi-view learning method)。LMVL算法通过对基于多视角学习数据设计的目标函数进行优化,将多视角学习问题转化成一系列单视角学习问题进行求解。LMVL算法通过学习一个映射矩阵来学习所有来自不同视角的特征,并通过赋予每个视角数据一个权重来达到自动选择重要的视角数据的目的。不同于传统算法整体优化映射矩阵的方式,LMVL独立优化映射矩阵每一列(对应于不同类别),从而可以通过并行计算进一步降低模型训练时间。我们从理论上证明了 LMVL算法具有线性时间复杂度,加之可以进行并行计算的优势,使得LMVL可以有效应对大规模多视角数据的分类问题。针对如何更有效地处理高维度复杂多视角数据问题,我们提出了 一种基于子空间学习的多视角分类方法(MVSC,Multi-view feature learning with shared component)。与传统的多视角子空间学习算法仅仅挖掘不同视角的共享子空间不同的是,MVSC同时挖掘共享子空间和每个不同视角特征所包含的特有信息,因此MVSC算法可以更加有效地利用多视角数据中所包含的丰富信息。我们通过使用不同的映射矩阵将视角间的共享信息和每个视角的特有信息映射到不同的子空间中,通过在不同的子空间挖掘有效信息,从而大大降低了原有的视角特征维度,实现了降维的目的。因此,MVSC算法可以有效处理高维度的多视角数据。为了优化不平滑的目标函数,我们提出了一种新的迭代优化算法,并从理论上证明了 MVSC的算法收敛性。通过与不同的多视角学习算法进行对比,实验结果验证了 MVSC在大大降低视角特征维度的同时可以取得满意的学习效果。
其他文献
作为信息技术学科核心素养之一的计算思维,近年来一直是学界研究的热点。本文从思维的角度考察计算思维的教学,认为思维目标、思维材料、思维工具、思维路径是落实计算思维教
以赴中国台湾地区实地调查的案例为基础,结合文献分析法,对当前台湾志愿服务事业的发展现状进行了研究与探讨。提出目前中国台湾地区志愿服务事业的主要特点为健全的管理机构
江阴模式是在新型农村合作医疗试点中涌现出来的另类模式,特色鲜明。江阴模式避免了政府完全操办的传统合作医疗的种种弊端,推动了政府职能转变,降低了农村医保运作和管理的成本
本文试图在美学的视野下对队列队形所呈现的美进行赏析,旨在通过对队列队形美的审视使人们感悟其美、发现其美,并能在美学理论的指引下对体育队列队形挖掘出更多的美。研究结
<正>本届全国中小学优秀体育课教学观摩展示交流活动已圆满结束,与上届相比,无论是数量还是课堂教学的质量都有所提升,有幸参与现场点评,也等于是多了一次难得的学习机会。通
文化遗产作为人类文明的见证,象征和载体,具有丰富的文化底蕴,其保护和合理开发可以明显促进文化旅游业的发展。本文以江西省436个国家级和省级文物保护单位为研究对象,借助GIS软件,运用最邻近指数、洛伦兹曲线、核密度分析、缓冲区分析等方法研究探讨了江西省文物保护单位的空间分布特征,分析了文物保护单位空间分布的主要影响因素。主要研究结果如下:⑴江西省文物保护单位在空间上总体呈明显的集聚型分布状态。文物保
以含硅1.21 wt%低碳钢为研究对象,采用电子背散射扫描(BSED)、能谱仪(EDS)、激光共聚焦显微观察(LSCM)分析了该钢种氧化铁皮的组成、Fe2Si O4/Fe O的组织以及Fe2Si O4相的熔化。结
在红酒越来越受到国人关注的同时,红酒的消费也与日俱增。但由于红酒不是我国的传统酒品,加之国人的不理性消费,致使现在的红酒市场出现过热的膨胀。许多人拥有红酒后却不知
从国家科技部获悉,徐州工程机械集团有限公司日前被确定为国家创新型试点企业。这是自2009年7月国家技术创新工程正式启动实施以来,为深入实施国家技术创新工程,加大创新型企