【摘 要】
:
在多数大数据应用领域中,数据的标注需要相关专家投入大量时间精力才能够完成,因此要将数据全部标注具有很大的困难。半监督学习是将大量无标注数据和少量有标注数据结合起来
论文部分内容阅读
在多数大数据应用领域中,数据的标注需要相关专家投入大量时间精力才能够完成,因此要将数据全部标注具有很大的困难。半监督学习是将大量无标注数据和少量有标注数据结合起来一起训练的一种机器学习方法。因为其不需要太多标注数据,所以在近几年来得到了越来越多的关注。传统的半监督学习方法都是基于“伪标签”的概念,有如下缺点:1)伪标签是模型对于无标签数据的预测值,通过概率计算得到,并不是真实的标签,不能保证准确。2)当模型通过含有错误伪标签的数据进行学习时,可能会学到错误的特征,反而在一定程度上降低了模型的性能。本文针对“伪标签”质量不稳定而使得训练结果不理想的现象,提出了一种基于生成对抗网络的新的半监督学习方法。主要贡献如下:1.能够自动生成指定标签的新数据。针对传统半监督学习中生成的“伪标签”质量不稳定的问题,本文提出了将生成对抗网络加入半监督学习当中的新方法,在训练过程中指定标签类别,使得生成器不仅要学习数据集中图像的总体特征,还要学习不同类别的相关特征,以此来生成更真实的指定类别数据。通过生成的带有指定标签的数据,增加训练的数据量。2.重新设计了生成对抗网络的判别器,将数据分类加入其中,使得模型能够应用在半监督学习上。改进判别器后,判别器既可以判断数据的真实性,也可以判断数据的类别,并且能够分别从训练集中的有标签数据、无标签数据、由生成器根据指定标签生成的数据中进行学习。通过生成器和判别器之间的博弈,使得模型达到纳什均衡,实现良好的半监督分类性能。3.实现了将模型从2D图像到3D图像的迁移,并对模型进行了进一步的改进和封装,使其适用于更多场景。算法细分了训练过程中的损失函数,添加了损失函数间的平衡系数,去除了判别器对于生成数据的标签判断。在实验中,本文算法在公开数据集上的分类准确率总体高于当今最好的半监督模型Mean Teacher。
其他文献
企业减排是当前中国政府面临的巨大难题,本文将中间品(1)进口对企业碳排放效率的影响以及影响机理纳入统一的理论模型,并且采用2008-2011年中国制造业企业的能源消耗数据和海关数据库,对中间品进口与企业碳排放效率的因果关系以及影响机理进行检验。基准回归发现中间品进口具有显著的碳排放效率提升效应。为解决企业进口的“自选择偏差”问题,本文分别采用倾向性得分匹配(PSM)和逆概率加权方法(IPW),使用
我国目前是世界上农药的制造与使用大国,杀虫剂是其中品种最多的一类常用药剂,为我国农业的增产和解决人类粮食缺乏问题发挥了巨大作用。然而,大量杀虫剂的使用亦导致生态环
随着我国房地产行业的蓬勃发展,房地产交易也越来越频繁,与此同时,和房地产市场相关的税收收入也在大幅增长。近年来,房地产及其相关领域的税收收入在我国财政总体收入中占有非常大的份额,对我国的经济总量的增长有着突出的贡献。伴随着二手房交易市场的快速发展,出现了很多与二手房交易相关的税收立法问题和税收征管问题。我国现行的税法体系中与二手房交易相关的税收制度不完善,税收征管工作的开展存在障碍,税收机关的征管
随着互联网与信息技术的飞速发展,电子商务与社交网络快速地融入了人们的生活,并在人们的生活当中占据着不可或缺的地位。但是,每年数以亿级的信息增长量让用户很难分析并找到对自己有用的信息,信息过载问题日益突出。电子商务领域如Amazon、e Bay、淘宝等为了应对这一问题发明了个性化的推荐系统。与此同时,为了获得更多的潜在用户以及更大的购买量,推荐系统不仅要为单个用户进行偏好分析产生个性化的推荐,还要为
我国耕地质量总体偏低,而人口多,粮食生产压力大,每年大量施用化肥来满足粮食需求,导致耕地质量下降严重。秸秆作为优质的可再生有机肥料,富含大量的养分。将这些养分还田利用,不但可以培肥地力,提高耕地质量,还可以避免资源浪费,保护生态环境。目前,我国的秸秆养分资源数量、空间分布、利用情况等现状不清楚,对秸秆养分在还田过程中存在的问题分析不够,造成秸秆养分资源还田利用率低下,严重制约了我国农业循环经济和农
从20世纪70年代末国内引进银行卡业务开始至今已有近40个年头,我国信用卡市场经历了社会征信体系未形成的拓荒期、发卡量爆发增长的时期到如今互联网金融渗透,产品更新速度过快的跨越。各大商业银行在信用卡市场中为取得地位和市场份额而争相竞争,所以营销策略的实施成功与否是一家商业银行能否在信用卡市场上保持竞争力、获得更多盈利空间实现业务拓展的关键之举。G银行昆明分行作为全国股份制大型商业银行,在强大的竞争
随着信息时代的到来,图像信号在信息传递中扮演至关重要的角色,图像信号的重构技术成为研究热点之一。压缩感知理论作为一种新的信号采样处理技术,通过稀疏变换将信号压缩至其稀疏域,进而实现高效的信号采集及恢复处理,在信号及图像处理领域有着广泛应用。本文针对基于压缩感知理论的图像重构方法展开研究,设计出快速、准确的图像稀疏重构算法,并将其应用于综合孔径辐射计和核磁共振图像重构中,取得了较好的图像重构效果。论
本文在商业银行同业业务风险管理相关理论指导下,通过对我国商业银行同业发展现状及风险管理进行分析发现,目前我国商业银行同业业务风险管理现状不容乐观,监管理念重形式轻
在经济快速发展的当今社会,煤炭等传统使用能源不仅在逐渐减少,并且伴随很多不可逆的环境危害。能源已成为当前急需解决的问题,寻求可替代的资源,是有效缓解目前能源危机的方法。燃料电池以能量转换率高,对环境友好等优点,成为解决能源问题的理想选择。众多的研究发现,纳米级的Pt基催化剂对燃料电池的两极反应都有很好的催化作用。但是贵金属Pt的储量稀缺,其高昂的价格使得大规模使用受到限制。基于当前的能源及燃料电池
结合国内外对陶粒支撑剂的实验研究发现锰矿粉可以降低烧结温度,促进烧结,但锰矿粉中不仅含有不同价位的锰离子而且含有很多杂质元素,其中含量最多的是Mn4+。为了确定Mn4+在