面向高维稀疏数据的超参数调优研究与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:yxiande123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据爆炸时代的来临,制造,金融,教育,健康等各种行业,数据的分布与之前大不相同。在很多场景下,数据逐渐变得稀疏而分散。面对这种高维稀疏数据的数据挖掘问题,机器学习算法能够比人工分析速度更快,效果更好。在实际业务中,各行各业出于自身需求,在应用学术成果的同时,也需要对算法模型进行适应性调整,得到更好的业务指标或生产效果。在对高维稀疏数据的分析过程中,合理地应用机器学习模型,可以使得数据分析更准确,数据挖掘更有效。在实际业务中,根据数据具体分布特征,进行机器学习模型的选取和模型超参数的设置是关键。本文针对指定场景下的高维稀疏数据,基于多种算法的数据分析处理结果和贝叶斯优化算法,实现并改进机器学习模型自动化建立及调优过程。本文主要研究内容有三部分。一是面向高维稀疏数据的处理与目标模型选取。本文依据多种数据分析指标,以量化分析代替定性分析,解析数据分布特征,基于带偏置项的SVD协同过滤方法对数据填充,基于集成树模型对数据降维,并选取合适的目标模型进行后续建模和调优。二是建立代理函数,对目标模型的超参数与性能间真实回归模型的分布进行预测。通过比较多种并行树模型预测结果后,基于随机森林算法建立代理函数,并通过基于回归树的AIC赤池信息准则调整代理函数模型结构。最后,本文提出基于贝叶斯优化算法的超参数调优框架SMAC-T。针对目标模型,本文在使用优化后的代理函数增加准确度的基础上,在传统贝叶斯优化算法加入模拟退火因子,结合贝叶斯概率和启发式算法的优势,加速优化解的搜索效率和优化解的质量。通过实验对比,定量化数据分析结果较为准确的刻画数据分布,针对高维稀疏数据的数据处理操作,有效降低了数据特征中的噪声,使得分类器的预测效果平均提升不小于10%。使用基于回归树的赤池信息准则调整代理函数模型结构,有效地平衡代理函数的预测效果和泛化能力。基于改进的超参数调优算法,能够在一定时间限制内,更快的找到优化配置。和SMAC优化框架相比,配置的平均性能有较大提升。和目标模型默认配置相比,调优后配置的性能提升可达10%以上。
其他文献
矿山企业生产效益主要取决于生产效率的提高及生产成本的降低。四道沟金矿地质情况十分复杂,其探矿费用在总生产成本中占有较高的比例。有效降低探矿成本对提高企业生产效益
开发出场截止型IGBT并深入研究了场截止型IGBT的核心技术和关键工艺.相比非穿通型IGBT,通过场截止层的形成,芯片厚度降至105 μm,器件导通压降低于2V,关断时间小于250 ns,电
当今社会”合作共赢”是不变的主题,企业要持续快速发展,产学研合作成功并有效实现科技成果的转化是关键。中色股份各出资企业通过产学研合作创新工作取得了一些成绩和经验,拓展
最大诚信是保险经营的基本原则之一,其主要内容包括告知和保证.《保险法》中有多处涉及到告知义务的规定.但在保险实践中,保险人的告知往往被忽略,从而导致许多不必要的纠纷.
阐述了大型燃气轮机增压站所配离心式压缩机防喘振系统的控制系统.通过对燃气轮机增压站压缩机性能曲线的分析,对压缩机防喘振控制逻辑进行了分析及改进.改进后,增压站压缩机
该矿是铜、钼多种金属可供综合利用的多金属矿床,铜、钼品位较低,资源储量较大。设计选矿厂生产规模为13 000 t/d,选用的选矿工艺设备大型化,采用"钼铜混合浮选-粗精再磨-钼铜
本文介绍了两种超(超)临界锅炉用新型奥氏体不锈钢管材,即新日铁开发的XA704和住友开发的SUPER304H的性能特点及异同。由于两种钢的成分不同。XA704钢管在500~730℃温度范围内的