论文部分内容阅读
电子商务应用如推荐系统和广告点击率预估等的数据挖掘问题的一个重大挑战是如何从大量稀疏的类别型特征中学习特征组合信息。一方面,特征组合信息能大幅提升任务的预测精度,另一方面其具备的可解释性有助于数据分析。近年来对相关问题的研究主要关注设计能够学习特征交互的深度学习组件,但这会导致模型与特征的可解释性较差。本文主要研究类别型特征的表示学习,利用自动特征工程技术,设计能够表达多阶特征组合信息的解决方案,并应用于传统机器学习模型或深度学习模型,从而使得结合该特征表示的学习模型能够同时保证预测效果和可解释性。本文提出了一个自动嵌入特征工程AEFE(Automatic Embedded Feature Engineering),一个能够从类别型特征中构建复杂二阶组合特征的自动特征工程框架。其主要流程包括类别型特征对搜索,自定义范式特征构造和多重特征选择。通过这些步骤,AEFE能智能地构造可解释性良好的时间滑窗特征,将类别型特征对映射为稠密特征表示。为使AEFE运行效率更高,本文提出基于信息增益分解的搜索方案和数据采样等加速技术。实验表明,AEFE结合梯度提升树GBDT模型在多个数据集上预测精度优于对比的深度学习模型;进一步的分析实验不仅揭示了AEFE在特征层面的强可解释性,而且也验证了各种加速技术的效果。为了完善AEFE并进一步改进自动特征工程框架的通用性与效果,本文提出基于boosting的自动特征组合编码BACE(Boosting-based Automatic feature Combination Encoding),一个对高阶特征组进行表示学习的自动特征工程框架。其核心思路是以梯度提升的方式构建特征组的表示,并利用代理模型搜索技术加速优化。其中特征组合编码阶段包含两种方案:复合目标编码器(CTE)和嵌入编码(EE)。与AEFE相比,BACE不仅在特征组合阶数上得以突破——从二阶变为更高阶,而且能结合使用的学习模型也更多,除了与GBDT结合使用的CTE方案外,还加入了与深度学习模型结合使用的EE方案,该方案能改良深度学习模型结构,使模型有选择地学习特征交互。实验结果说明,相比其他基线模型和方法,BACE均能带来不同程度的预测精度提升,同时也表明了BACE构建的高阶特征的有效性。