【摘 要】
:
随着现代社会的数据量与信息量急剧增长,以机器学习为代表的系列人工智能技术取得了重要突破,特别是有监督学习模型,其泛化性能在诸多实验室场景下已经超过了人类。然而,训练高效的有监督学习模型通常需要为每个目标类别搜集成百上千的带有人工标注的训练样本。在实践过程中,由于真实数据类别分布的长尾效应与高昂的人工标注成本,想要为模型建立理想的有监督训练数据集往往不能如愿,会呈现出各样的零样本、少样本场景,比如某
论文部分内容阅读
随着现代社会的数据量与信息量急剧增长,以机器学习为代表的系列人工智能技术取得了重要突破,特别是有监督学习模型,其泛化性能在诸多实验室场景下已经超过了人类。然而,训练高效的有监督学习模型通常需要为每个目标类别搜集成百上千的带有人工标注的训练样本。在实践过程中,由于真实数据类别分布的长尾效应与高昂的人工标注成本,想要为模型建立理想的有监督训练数据集往往不能如愿,会呈现出各样的零样本、少样本场景,比如某些类别样本的缺失或者标签的缺失。针对这些普遍存在的信息缺失问题,机器学习领域相继提出了一系列对标注数据集弱依赖的解决范式,称为弱监督学习,其深层次原理在于充分挖掘现有数据集特性,使得智能模型在信息缺失情形下的建立更加符合人类学习机制,从而逐步具备真正意义上的机器智能。也因此,对于零/少样本场景下的弱监督学习研究正成为多个建模领域的热点问题。基于上述背景,本文以弱监督学习为核心脉络,从基本的少样本场景与少标签场景开始,推演到零样本场景,再到最终的任意样本场景,逐步揭示并解决信息缺失下数据驱动模型建立的若干关键问题,从而拓展了数据驱动模型在各类弱监督场景下的应用。为了展示少样本场景、少标签场景、零样本场景和任意样本场景等弱监督学习问题的现实存在性与实践价值,我们以手写数字识别、虚拟传感测量、工业故障诊断和户外场景检测四种典型应用为代表,对所提出的方法加以验证。同时,我们基于Python语言,设计并开源了针对零/少样本场景下弱监督学习的生成模型库,从而使得本文设计的生成模型以及一系列用于零样本、少样本问题的典型生成模型可以以一行代码的方式进行极简实现。本文的主要贡献分为五点,总结如下:1)针对弱监督学习中的少样本场景,设计了一种具备三重增量学习能力的宽网梯度提升系统模型,它通过模拟卷积神经网络的深层结构,将多个宽度网络以梯度提升机的加性模型结合得到。新模型解决了在少样本场景下已建立的模型面临学习新特征、新样本、新类别三种增量需求时需要不断重新训练的问题。以手写数字识别任务作为模型验证,实际可减少约40%~60%的建模时间。2)针对弱监督学习中的少标签场景,设计了一种简单但有效的半监督对抗平滑正则损失,它评估了模型对每一个样本点预测的平滑程度,通过最小化模型对噪声与干净样本的预测散度,解决了在少标签场景下大量利用无标签样本建模的鲁棒性问题。同时,我们也设计了三重回归半监督学习框架,通过伪标签的形式进一步利用无标签样本,构造出对抗平滑三重回归模型,以虚拟传感测量任务作为模型验证,实际可降低约7%~10%的预测误差与25%的噪声误差。3)针对弱监督学习中的零样本场景,设计了一种基于语义描述属性迁移的零样本模型,该模型在数据驱动的框架下尝试使用人工定义的描述替代样本来判断类别,解决了在样本与标签同时缺失的情况下某些类别难以建模的问题。以工业故障诊断任务为例,新模型通过从已有故障的预学习与知识迁移,可以直接基于辨识的故障描述对目标故障进行在线的诊断而不再需要任何基于数据的模型训练,达到了使用200~400样本所建立模型的准确率。4)针对弱监督学习中包含零样本、少样本等问题的任意样本场景,设计了一种具备生成器迁移误差消除能力的语义精炼对抗生成网络,该模型利用多头语义表示技巧与层次语义对齐技巧精炼语义描述,解决了特征生成器从已知类别向未知类别迁移时存在的迁移误差问题,达到了生成器跨类别特征生成的无偏条件。以户外场景检测任务为例,相比于传统的生成模型,新模型在零样本测试中提升了约5%~8%的准确率,在少样本测试中提升了约5%~10%的准确率。5)针对弱监督学习,设计并开源了基于Python语言的生成模型代码仓库,提供了相应的模型、特征、参数和实验设定。文中所设计的生成模型以及一系列用于零样本、少样本问题的典型生成模型都可以以一行代码的方式进行极简实现。同时,我们基于户外场景检测任务,通过简单修改模型使用的视觉与语义特征,极大的提升了复现模型的基准性能,约3%~15%,揭示了视觉与语义嵌入特征对生成模型与弱监督学习建模的重要性。
其他文献
随着技术的发展,对个人肖像的商业使用行为越发常见。在利用肖像的过程如有不当,不仅会侵害个人的肖像权,还会由于肖像通常与个人姓名一起出现对身份进行识别、与行为一起出现表现内容、或与周围的环境一起出现展示画面,而必然侵害到多种人格权如姓名权、名誉权、隐私权等。为了减少肖像商业利用中对人格权的侵权行为,加强对肖像商业利用中的人格权保护与救济,势必要讨论对其涉及的人格权的一般性保护与在商业利用中的特殊性保
【背景】内生真菌印度梨形孢(Piriformospora indica)定殖植物可以显著促进植物生长发育。miRNA已被证实在植物体的生长发育中具有调控作用。【目的】揭示印度梨形孢定殖大麦促进大麦生长发育过程中miRNA对印度梨形孢定殖的响应及对大麦生长发育的调控作用。【方法】提取大麦总RNA,实施转录组测序并进行序列比对与数据挖掘;使用高效液相色谱检测大麦生长素等激素水平变化。【结果】印度梨形孢
文章先分析了现代信息系统审计风险,包括信息系统自身存在风险、审计人员潜在风险、企业内控管理不足、相关法律制度缺陷等,随后提出了针对现代信息系统审计风险的有效应对策略,包括创新设计信息审计系统、加强审计人员管理培训、加强企业内控管理、政府层面提高重视,希望能给相关人士提供有效参考。
《中共中央国务院关于做好2022年全面推进乡村振兴重点工作意见》,即2022年中央一号文件,再次提到保障“菜篮子”产品供给,大力推进北方设施蔬菜基地的建设,加快发展设施农业,因地制宜发展塑料大棚、日光温室、连栋温室等设施。通过课题组多年对我国北方寒旱地区冬季日光温室内土壤水热的试验和研究,发现温室南侧边际区域,土壤温度长期处于低温状态。通过调研区域周边日光温室冬季种植情况,发现温室运营者针对温室南
随着我国体育运动的不断发展,人们逐渐认识到运动的重要性。作为我国培养高学历、高素质人力资源的高等教育机构,大学一直特别关注学生的健康和身体素质。在高校体育选修课中,羽毛球作为一项技术性强、竞技性强的运动,一直受到广大学生的喜爱,其选课率常年位居体育选修课前列。该文将以两种典型的技术动作“杀上网”和“平抽挡”为例,分析羽毛球技术动作训练。
随着“互联网+教育”的兴起,信息技术与教育教学深度融合,教育不再一味地注重学生的学习结果,而更多的开始关注学习过程,强调形成性评价、创新教学评价方式、创造新的教育生态。传统的评价方式已然无法满足“互联网+”时代网络教学的评价需要。因此,在网络教学中开展同伴互评已然成为当下教育改革的必然趋势。在线同伴评价不仅减轻了教师的工作负担,解决了网络教学中对学习者的学习效果进行及时反馈的问题;而且在同伴互评的
随着世界工业的不断进步,预估今后几年内对稀有金属钽和铌的需求量将呈上升趋势。国内优质好选的钽铌资源日趋匮乏,导致钽铌资源保障存在风险,对其科学合理的综合利用和建立绿色低碳环保工艺是研究钽铌矿的关键点。本论文对钽铌矿选矿工艺现状、优缺点以及各联合选矿工艺的适用性进行阐述。重点总结了近年来研发出的各类钽铌矿浮选药剂,同时对钽铌矿选矿技术进行了展望。
目的 借鉴古籍中医药思维,探讨中药临床处方审核思路。方法 通过阅读大量中医药古籍,提取古籍中关于遣药组方的有效条文及思维,指导中药临床处方审核工作。结果 从中药自身性质、药对理论、君臣佐使组方原则、经方适应证、经方禁忌证、中药剂量等方面入手,采用由局部到整体的思路审核中药临床处方的合理性,从源头上杜绝不合理用药现象。结论 本文为中药临床处方的审核提供了新思路,可以进一步完善中药处方审方工作,为判断
对RC环梁式圆钢管约束型钢混凝土柱-狗骨式削弱型钢梁节点在低周反复荷载作用下的抗震性能开展数值研究。在验证有限元模型正确性的基础上,研究了狗骨式梁端翼缘削弱参数、梁柱线刚度比和柱轴压比对该节点破坏模式、滞回性能、骨架曲线等的影响。结果表明:对钢梁梁端进行狗骨式削弱,可使节点塑性铰位置明显外移,起到保护RC环梁及节点区的作用,从而更好地满足“强节点弱构件”的抗震要求;梁端削弱参数对RC环梁的破坏程度