【摘 要】
:
在很多现实问题中,数据很容易获得,但数据的标记获取需要花费高昂的人力物力资源。半监督学习是机器学习领域的一个重要研究方向,旨在对数据很多,标记很少的应用场景提供解决
论文部分内容阅读
在很多现实问题中,数据很容易获得,但数据的标记获取需要花费高昂的人力物力资源。半监督学习是机器学习领域的一个重要研究方向,旨在对数据很多,标记很少的应用场景提供解决方案,目前已经取得了很多的进展。然而,目前半监督学习技术在现实问题的实施过程中仍有些不足。首先,半监督学习技术在实施过程中会出现性能严重下降的情况,也就是,利用了更多的未标记数据有时反而会恶化学习性能;其次,半监督学习技术在实施过程中会出现消耗大量资源的情况,也就是,半监督学习的模型选择及其参数很难自动化地确定,需要耗费大量的人力物力资源。围绕以上两个方面的问题,本硕士论文展开探索,并取得以下进展:一、在缓解半监督学习技术实施过程中出现性能严重下降的情况方面,本文提出基于样本选择的安全图半监督学习方法,旨在降低利用更多的未标记数据后性能反而恶化的风险。该方法的基本思想是给定大量未标记的样本,仅仅选择有助于提升模型预测性能的可靠未标记样本,而不使用不可靠的未标记样本。实验结果表明,该方法通过选择利用可靠的未标记样本,有效避免传统图半监督学习方法会导致性能恶化的现象。本论文还进一步将样本选择的方法拓展到归纳的图半监督学习方法中,并有效的对未见样本做出预测,从而避免了传统方法出现性能下降的风险。二、在缓解半监督学习技术实施过程中出现消耗大最资源的情况方面,本文提出半监督学习自动模型选择方法。该方法的基本思想是利用经验数据集的模型选择信息帮助目标数据集选择半监督学习算法,并使用大间隔方法为选出的半监督学习算法挑选最优参数,最终通过模型评估选择最优模型。实验结果表明,该方法能够有效地选择最优学习模型及其参数,模型预测性能相比监督学习算法得到有效提升。同时在少量标记数据情况下,该方法得到的模型预测性能会比已有自动化机器学习系统Auto-sklearn得到的模型预测性能好。
其他文献
预应力混凝土构件在使用过程中,不但要承受外力的作用,而且还要受到有害化学物质的损伤,加上结构自身性能的退化,很多的预应力混凝土结构出现了不同程度的病害情况,主要体现
国内煤炭港口数量不断增加,现有煤炭港口规模日益扩大,国内煤炭运输压力愈大,这些因素对黄骅港设施提出了更高的要求,为了适应生产的需要,需要从各方面寻求挖潜提效的措施和
现实世界中,许多重要的数据都以复杂网络或图的形式存在,比如引文网络,交通网络,基因网络等。网络中节点本身附带的特征信息及节点之间的链接关系包含大量的价值信息。另外,
伊恩·麦克尤恩(Ian Mc Ewan)是当代英国文坛最具影响力的作家之一,曾获“英国布克奖”、“毛姆奖”等多项文学大奖。《水泥花园》(1978)是“恐怖伊恩”时期的杰作之一。该故事由“我”——一个正值青春叛逆期的十五岁少年杰克,讲述了城市化进程中边缘家庭儿童的成长困境。父母相继离世,使得四个孩子如同囚徒,被困在水泥花园中,成为了孤岛上的幸存者。他们相依为命,在与世隔绝的世界里组建了一个伦理错位的
新闻话语与社会生活有着密不可分的联系和影响。新闻话语受到当下社会生活的影响,能够反映当下社会生活的特点和趋势。同样,新闻话语特征体现出来的社会价值对社会生活也有一
伴随着我国金融体制改革的深入发展,我国债券市场从无到有、从小到大,如今已初具规模。20余年来,我国债券市场不仅为国家财政政策和货币政策实施奠定了市场化的基础,而且为若
自从实施配电市场化的改革以来,如何有效地使得我国的配电网络自动化产业逐步发展成一个更加开放、公平的配电网络自动化产业,已经逐渐成为我国电力高科技配电网络产业发展者
随着通讯技术和计算机技术的飞速发展,云计算、物联网、社交网络等新兴服务促使人类社会的数据种类和规模正以前所未有的速度增长,世界已进入网络化的大数据时代。面对愈来愈
一、中国企业改革发展现状2020年,国际环境日趋复杂,不稳定性不确定性明显增加,新冠肺炎疫情影响广泛深远,经济全球化遭遇逆流,世界进入动荡变革期,单边主义、保护主义、霸权
近年来,人工神经网络的研究成为时下热门。在众多神经网络模型中,由Cohen和Grossberg提出的Cohen-Grossberg神经网络模型的发展尤为突出。因其独有的特性,被广泛应用于模式识