基于梯度的神经网络结构搜索算法优化

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:L1010732268
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度神经网络由于具有强大特征提取和表征的能力,已经在计算机视觉、自然语言处理、智能决策等方面展现了卓越的性能。近年来,深度神经网络的设计引起了研究人员的广泛关注,各种高性能和高效率的神经结构不断涌现。但是手工设计一个神经网络需要大量的专家经验和反复的实验验证。因此,神经结构搜索方法被提出来在给定的任务上自动设计神经结构。基于梯度的one-shot神经结构搜索方法在高效实现结构搜索的同时,还具有不错的性能。该方法将搜索空间编码到一个超网络中,并给结构中的每一个操作赋予一个权重系数,即结构参数,通过梯度下降方法来优化网络结构参数。然后根据训练好的结构参数幅值来对操作进行排序,并依次选择保留较大结构参数对应的操作。这种方法存在两个问题,一是神经网络中的候选操作相对独立,没有考虑网络结构中候选操作之间的相互关系,即竞争或依赖关系。二是使用结构参数的幅值大小来定义对应候选操作的重要性具有较大偏差,而且实验发现它们二者之间的相关性较低。以上的两个问题将会导致神经结构出现性能不稳定甚至性能不佳的情况。为了解决以上的问题,本文分别提出了两个算法。对于问题一,我们考虑建立网络中候选操作之间的相互关系。具体地,我们引入自注意力机制到神经结构搜索中并为此开发了一个结构自注意力模块。该模块可以很方便地插入到搜索的网络层中,让候选操作之间进行信息交互来计算某一个特定操作的注意力系数。通过梯度反向传播来更新网络中的参数,从而突显网络中的重要操作并抑制无用的操作,为结构的选择提供重要的参考。对于问题二,我们提出了一种候选操作显著性的概念来量化操作的重要性。将每个操作与网络的输出之间建立起直接关系,从而观察单个特定操作对网络的影响。为了高效地计算该显著性,我们分别提出使用泰勒级数展开和费舍尔信息来近似计算操作显著性,在保证结构高性能的前提下,我们极大提高了结构搜索和结构选择的效率。为了验证提出的算法,我们在 CIFAR-10,CIFAR-100,fashionMNIST,ImageNet等图像数据集上进行了实验。实验结果显示我们的两个算法都能以较低的搜索时间成本获得高性能的神经网络结构,相比于其他的神经结构搜索算法,我们在搜索时间和结构性能上都展现出较大的优势。
其他文献
肝细胞癌(hepatocellular carcinoma,HCC)是一种常见的恶性肿瘤,其在全球癌症相关死亡人数中排名第三。目前,HCC的早期检测方法主要有血清标记物检测与影像学检查。其中,血清标记物的灵敏度不高,无法鉴别大约1/3以上的肝癌患者。影像学检查对于直径<2厘米且分化较好的早期肿瘤的诊断敏感性约50%左右。因此,对于影像学检查难以辨别的早期肝癌组织中发生的微小病理改变,通常采用肝穿刺
随着第五代移动通信系统(5G)的商用化逐渐落地,毫米波频谱资源会变得逐渐稀缺,此时比毫米波频段更高的太赫兹(THz)频段必将是未来通信发展的主要趋势。近年来,THz通信已被公认为可以为第六代无线通信系统(6G)提供足够频谱资源和超高数据速率的有前途的技术。由于THz信号路径衰减以及分子吸收十分严重,长距离通信会对信号强度造成很大程度的损害,所以短距离室内场景是目前研究THz通信最适用的场景。然而,
随着以太网的日益发展,局域网的复杂程度也随着用户数和网络终端的增多而越发提高。为了保证局域网运行环境的健康稳定,在局域网的故障管理过程中,网络管理员需要对网络的整体运行状态把控和对网络故障进行成因分析和经验式诊断。但由于局域网往往承载着特殊业务,传统方法非常耗时耗力,于是现阶段对故障诊断的响应以及智能程度提出了新的要求。因此,本文从深度学习角度出发,研究了基于卷积神经网络模型的网络故障诊断方法。本
量子力学本身的特殊性质使得量子算法在解决某些问题上具有量子优势。本文着眼于量子查询算法以及量子强化学习算法,提出了两种不同的解决特征值问题的量子算法,这两个新的方法相比较于经典算法都具有量子优势。在第一个工作中,我们受到不动点搜索算法的启发,提出了基于查询的方法来解决特征值求解问题。我们将此问题转化为基于查询的搜索问题,并且将未知的特征态设定为所求问题的目标态。我们的方法主要思想是通过不动点Gro
随着信息时代的到来,计算机不仅促进了社会的发展,也改变着人们的生活。但冯诺依曼体系计算机的发展将会逐渐受到限制。近些年,量子计算逐渐受到人们的关注,量子计算中存在纠缠和叠加等特性,可以利用这些特性实现加速。将量子计算与经典的机器学习算法相结合,有望解决数据量巨大和训练速度缓慢等棘手的问题。本论文主要分为两部分,一部分我们主要介绍了量子计算的基础和量子变分电路研究现状及背景,量子变分电路是在量子本征
机器学习已然成为现代科学的基石,它被广泛地应用于所有科学领域。然而,它于计算电磁学(CEM,Computation Electromagnetics)算法相结合还有待研究。在本文中,我们将基于深度学习(DL,Deep Learning)的机器学习方法与传统的FDTD(Finite-Difference TimeDomain)算法相结合,研究DL-FDTD算法原理和实现技术,并应用在计算电磁学中。本
目的:本研究旨在系统评价机器学习算法预测脓毒症发病及病死率研究的方法学和预测模型,提出机器学习预测研究报告标准,并以此为基础创建危重症患者数据集,进行脓毒症发病和预后预测研究。方法:研究分为两个部分。第一部分为系统评价(systematic review)研究。检索中国知网、万方数据库、Pub Med、Web of Science等数据库中机器学习算法用于脓毒症预测文献,时间从2010年1月至20
随着互联网的普及和飞速发展,网络安全问题也愈发重要。Web日志记录了网站的运行信息和用户的所有操作,通过日志分析开发者可以检测出网络的异常流量,及时发现漏洞。由于传统的基于规则和模式匹配的日志分析技术对海量数据的处理效果不佳,也无法应对形式复杂多样的网络攻击,将机器学习和深度学习技术应用到日志分析领域是大势所趋。本文提出了一种自定义特征的方法,对比于其他基于统计信息的特征提取,该方法将特征提取的重
多智能体系统是一种复杂的网络系统,其应用涉及了多个领域,如无人机协作控制、传感器网络设计以及机器人编队等。近年来,多智能体系统的一致性问题受到了许多学者的广泛关注。如何设计恰当的协议,使得系统内个体间的状态能够达到一致是研究多智能体一致性的关键问题。目前对于一致性的研究大都只涉及一阶、二阶,缺乏对具有有限子群的高阶系统尺度一致性的研究。本文主要研究具有有限子群的离散时间三阶多智能体系统的尺度一致性
机器学习的一个核心主题是顺序决策,这是要求在不确定的环境中依据决策规则选择要执行的一系列动作,以实现某些目标的任务。作为机器学习的重要子领域,强化学习提供了一种解决这类任务的正式框架。然而,解决比较复杂的任务时,它所需要的样本数量难以忍受;另外,当任务发生改变时,原来的解决方案就无法应用,学习必须要重新开始。这些问题促使我们利用现有知识来改善强化学习过程。近年来,迁移学习作为一种利用先验知识来加速