论文部分内容阅读
随着数据爆炸时代的来临,制造,金融,教育,健康等各种行业,数据的分布与之前大不相同。在很多场景下,数据逐渐变得稀疏而分散。面对这种高维稀疏数据的数据挖掘问题,机器学习算法能够比人工分析速度更快,效果更好。在实际业务中,各行各业出于自身需求,在应用学术成果的同时,也需要对算法模型进行适应性调整,得到更好的业务指标或生产效果。在对高维稀疏数据的分析过程中,合理地应用机器学习模型,可以使得数据分析更准确,数据挖掘更有效。在实际业务中,根据数据具体分布特征,进行机器学习模型的选取和模型超参数的设置是关键。本文针对指定场景下的高维稀疏数据,基于多种算法的数据分析处理结果和贝叶斯优化算法,实现并改进机器学习模型自动化建立及调优过程。本文主要研究内容有三部分。一是面向高维稀疏数据的处理与目标模型选取。本文依据多种数据分析指标,以量化分析代替定性分析,解析数据分布特征,基于带偏置项的SVD协同过滤方法对数据填充,基于集成树模型对数据降维,并选取合适的目标模型进行后续建模和调优。二是建立代理函数,对目标模型的超参数与性能间真实回归模型的分布进行预测。通过比较多种并行树模型预测结果后,基于随机森林算法建立代理函数,并通过基于回归树的AIC赤池信息准则调整代理函数模型结构。最后,本文提出基于贝叶斯优化算法的超参数调优框架SMAC-T。针对目标模型,本文在使用优化后的代理函数增加准确度的基础上,在传统贝叶斯优化算法加入模拟退火因子,结合贝叶斯概率和启发式算法的优势,加速优化解的搜索效率和优化解的质量。通过实验对比,定量化数据分析结果较为准确的刻画数据分布,针对高维稀疏数据的数据处理操作,有效降低了数据特征中的噪声,使得分类器的预测效果平均提升不小于10%。使用基于回归树的赤池信息准则调整代理函数模型结构,有效地平衡代理函数的预测效果和泛化能力。基于改进的超参数调优算法,能够在一定时间限制内,更快的找到优化配置。和SMAC优化框架相比,配置的平均性能有较大提升。和目标模型默认配置相比,调优后配置的性能提升可达10%以上。