自动化超参数调优算法的研究

来源 :中国石油大学(华东) | 被引量 : 0次 | 上传用户:rsbgrc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的数据分析与数据挖掘的步骤一般包括,数据预处理、特征选择、模型选择、超参数调优、模型评估等。其中合理选择数据挖掘算法是数据挖掘的核心步骤,并且在构建模型的过程中,不同的数据挖掘算法具有不同类别的超参数,同种算法选择不同的超参数值,模型的性能也会有较大的差异,因此需要反复调优这些超参数,才能使模型达到最优性能。然而目前超参数调优这项工作比较依赖数据工程师和领域专家的专业知识和相关经验,计算和调试都需要耗费昂贵的时间代价。因此针对特定算法自动的进行超参数调优显得尤为重要。本文以机器学习中的SVM、随机森林算法以及深度学习中的卷积神经网络为例,使用贝叶斯优化算法自动的对超参数进行调优。通过对贝叶斯优化算法的改进和提升解决三大问题,一是使用元学习初始化贝叶斯优化算法的配置,提高算法的性能和效率;二是采用改进的Relief算法评估超参数的重要性;三是使用蒙特卡洛马尔科夫链优化贝叶斯高斯核函数中的超参数,加速贝叶斯优化算法在深度学习中超参数调优的计算。本课题使用open ML平台上的数据集进行相关实验,主要工作如下:(1)提出了一种使用元学习初始化贝叶斯优化配置的新算法—MLI-BO,该算法能够为贝叶斯优化算法提供合理的初始化配置,加速贝叶斯优化算法的启动及优化进程,并获得良好的性能。实验分析结果显示,MLI-BO相比贝叶斯优化算法和随机搜索算法能够为数据集提供更好的超参数初始配置和更短的优化时间;(2)采用改进的Rlief算法评估机器学习算法中超参数重要性,了解算法不同超参数的重要性排序,减少超参数优化的数量,提高算法效率。实验结果显示,改进的Relief算法能够为SVM和随机森林算法提供超参数重要性排序;(3)使用蒙特卡洛马尔科夫链优化贝叶斯高斯核函数中的超参数,加快贝叶斯优化算法在深度学习上的计算速度。实验结果表明,基于蒙特卡洛马尔科夫链的贝叶斯优化算法分别在MNIST数据集和CIFAR数据集上的错误率为3.5%和24.5%,错误率低于其它超参数调优算法。
其他文献
连续波泥浆脉冲传输技术具有能量集中、传输距离远、速率快、抗干扰能力强等优点,成为随钻测量、测井的重要研究方向。泥浆脉冲信号是将测量数据编码后,通过电机驱动脉冲发生器旋转阀产生调制压力波信号,压力信号以泥浆为传输介质,从井下向地面系统传输,由地面系统完成信号检测、采集、处理及解调解码。本文以发掘提高连续波泥浆脉冲信号质量的方法为目的,分析信源与信道对泥浆脉冲信号质量的影响,完成的主要工作与结论如下:
近年来,随着海洋油气田的持续开发,采出气中水和凝析液含量逐渐增多,在海上平台空间受限的背景下,为满足气液分离要求,大力发展紧凑型气液分离器成为新的趋势。本文通过理论分析和数值模拟提出了一种轴流式气液旋流分离器的结构方案,并在此基础上加工分离器实验样机,通过实验对样机的分离性能进行了研究,建立了分离效率模型和压降模型,主要结论与研究内容如下:针对雾状来流,在分离器内部气液两相流动规律的基础上,分析了
目前石油资源短缺和水污染两大类问题严重制约了我国社会的健康发展,探索超稠油开发技术和方法,研发高效的污水处理材料,对我国健康发展具有重要意义。2004年石墨烯的问世,由于其独特的结构和优良的性能引起了科学界的广泛关注。随着科研人员的努力,使石墨烯在能源材料,传感器,吸附剂等领域得到了有效应用,也为稠油降粘和污水处理这两类问题的解决带来了曙光。但是二维平面的石墨烯,由于π-π相互作用和范德华力的存在
海上油气的开采和运输过程存在严重的管道泄漏、溢油漏气事件,泄漏的油气资源造成严重的海面环境污染和经济损失。针对海面溢油问题,有效的方法之一是采用多孔材料对溢油进行吸附回收,溢油中的固体颗粒对吸附效果也有很大的影响,吸附过程涉及油-水-固的三相流动,因此对多孔介质内多相流动过程的研究具有重要意义。为了更好的研究多孔结构设备对海面溢油的吸附特性,本文采用格子Boltzmann方法(LBM)的Shan-
针对高含硫气田井口压力不断降低的特点,本文提出了利用高压气井的富余压力通过喷射器增压输送低压天然气的方案。天然气喷射器结构简单、高效节能,但内部流动规律非常复杂,存在激波、壅塞、天然气水合物的生成等复杂的现象。在现有的实践应用中,对喷射器关键结构的尺寸设计常依赖于经验取值,而天然气喷射器内部的复杂流动规律很难通过现场应用或实验观测得到。本文通过数值模拟,对天然气喷射器内部流场进行了分析,探究了提高
波达方位(Direction of Arrival,DOA)估计在阵列信号处理中是一个极其重要的研究方向。在系统级DOA估计应用中,相关干涉仪算法(Correlation Interferometer Algorithm,CIA)是一种重要的算法,却有以下弊端:在测向中存在相位模糊和基线镜像对称问题;在同一时间内只能解决一个信号的方位估计。这两个问题严重阻碍了系统级DOA估计的应用。针对相位模糊和
我国致密砂岩储层油气藏的开发有巨大的潜力,而在开发过程中,储层岩石压力情况发生改变从而影响岩石的有效应力和渗透率的现象就是应力敏感性。有效应力理论的选取和应力敏感性的影响规律及评价是渗流研究中面临的主要问题,通常采用Terzaghi有效应力理论和室内实验进行研究,但其适用范围有限,且常规方法缺少对储层岩石孔隙结构真实还原下的渗流模拟。因此,本文从压汞法、铸体薄片和微CT扫描对岩石的微观孔隙特征研究
从人类出现至今,疾病严重影响着人类身体的健康。全基因组关联研究(Genome-Wide Association Study,GWAS)可以实现对与复杂疾病相关的单核苷酸多态性(Single Nucleotide Polymorphism,SNP)等遗传标记的定位,有利于进一步了解疾病的发病机理,并为其预防、诊断以及治疗提供帮助,是当今生物医学研究的热点。从单核苷酸多态性的层面上来看,人类基因组是一
威兰胶是一种新型的微生物多糖驱油剂,作为优良的三次开采驱油剂展现出了巨大的市场价值。目前,国内对于威兰胶的需求量日益增长,然而,国内威兰胶的培养技术尚不成熟,国外对我国威兰胶培养技术长期封锁,从而导致这一供需矛盾更加突出。因此,如何进一步发展威兰胶培养技术,得到高产的威兰胶菌种,成为国内研究的一个热点问题。本文主要工作是通过优化威兰胶液体发酵培养环境和挖掘鞘氨醇单胞菌(Sphingomonas s
本文根据涉及多孔介质的流体流动控制、污染物传播与有害源辨识等实际问题需要,对完全或部分填充多孔介质空间内的流动与传质现象和气态污染物迁移逆时间反演问题开展了创新性研究工作。首先,建立了流体受迫流动状态的完全填充多孔介质通风室模型,基于有限容积法对无量纲的Darcy-Brinkman动量方程离散求解,着重分析了雷诺数Re和达西数Da对流体流动结构转变的联合效应,发现Re·Da≥0.2是多孔介质内涡产