多源迁移学习的研究

被引量 : 0次 | 上传用户:andalee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
训练与测试数据在传统的机器学习中通常满足同分布,但实际应用中,满足同分布条件的训练样本往往相当缺乏。怎样有效地利用与测试数据非同分布的训练数据是需要解决的问题,恰好利用迁移学习解决。迁移学习的目的是借助来自其他领域的,不满足数据同分布的训练样本,帮助目标领域建立分类模型。另外,迁移学习方法的分类效果在很大程度上依赖源领域,例如,源领域的个数以及源领域与目标领域之间的可迁移性等。本文研究了用来表示多元关系的超图,在多个源领域对目标领域样本多标签化的基础上,构建了样本标签关系超图,捕获了共享相同标签的多个样本之间的关系,给出了分类模型。利用超图的拉普拉斯扩展进一步细化了该预测模型,通过最小二乘法的技术求解。实验表明,该算法在分类性能和时间效率上具有明显的优势。针对迁移学习中目标领域标记样本较少的问题,本文给出了半监督学习中的助学习与多源迁移学习融合的算法。该算法利用了助学习方法中对样本进行两次选择的特点,对每个源领域中的样本进行了两次选择。第一次根据分类一致性以及迁移性能,第二次根据样本在分类器下的类别概率,选择类别概率较高的样本加入到目标领域带标记的数据集中,即,从每个源领域中选择符合条件的样本加入到有标记的目标领域。实验表明,Help-MITL算法在目标领域训练比例较小时,仍有较高的分类性能。研究了用来解决标记样本稀缺的主动学习及其学习方法,设计了基于主动学习的多源迁移算法。该算法分成两部分来考虑,第一部分从每个源领域中迁移样本,依据源领域训练的模型和带标记的目标领域数据训练的模型分别对样本的预测结果,从每个源领域中选择两个模型均预测正确的样本构成新的源领域;第二部分从目标领域无标记的数据集中选择样本并进行专家标记,根据新的源领域与目标领域有标记的数据集共同训练的模型和目标领域标记数据集单独训练模型对样本的预测结果,选择两个模型预测结果一致且预测概率较高的样本。实验证明,在专家标记样本数一定的情况下,AtMTL算法更加高效。
其他文献
自联合国教科文组织20世纪60年代发布倡议,确认教师的专业地位以来,国际社会为将上述理念转化为现实做出了不懈努力,特别是自80年代以后,先是发达国家、后是部分发展中国家,
文章以"巴别塔"故事为喻,阐述了汉语作为第二语言教学从学科诞生之始至今在学科基本认识论上存在的问题与基本分歧,分析了这些问题和分歧产生的原因,探讨了汉语作为第二语言
随着会展产业的快速发展和网络信息技术的不断进步,虚拟会展逐步成为会展产业发展的新兴热点,并日益受到社会各界的广泛关注.然而现有的理论研究往往聚焦于虚拟会展的实现技
目的探讨MR动态增强曲线联合基于双指数模型的Slow ADC值对乳腺浸润性导管癌的诊断价值。方法回顾性分析经手术病理或其他方式确诊的35例乳腺浸润型导管癌(44个病灶)和17例良性
有收藏市场,就会有投资市场。目前越来越多的资金正投入到新兴的茶品收藏市场,这个市场的产业化规模也在迅速的扩大,如何能从中掘一桶金,首先就要了解茶的历史以及什么茶适合
以南汽IVECO某轻型客车为例,建立动力总成悬置系统的六自由度动力学模型,根据能量解耦法推导了有关公式,对动力总成悬置参数进行优化设计,结果表明,合理地选择动力总成的悬置
位于上海市政府东侧的上海城市规划展示馆已落成,它的展示内容涉及上海城市规划的历史与未来、整体与局部,是国内外观众了解上海城市发展的一个重要窗口。
以偶氮二异丁腈为引发剂,乙二硫醇(EDT)为链转移剂进行甲基丙烯酸甲酯(MMA)的自由基聚合,得到了含有残余巯基的聚甲基丙烯酸甲酯大分子链转移剂(HS-PMMA),继而以HS-PMMA作为
由于直线电机地铁车辆电机悬挂具有特殊的结构形式,因此其振动特性也具有不同于传统电机悬挂车辆的特点。为了研究直线电机地铁车辆的振动特性,从结构上分析直线电机的定位方
随着互联网的快速发展,为了满足日益丰富的现代化业务,对数字图像这种信息载体的使用范围和要求也越来越高。计算机网络的飞速发展极大的扩展了图像的应用领域,在图像采集、处理