基于自动特征工程的类别特征表示学习及其应用

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:huazhongtan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子商务应用如推荐系统和广告点击率预估等的数据挖掘问题的一个重大挑战是如何从大量稀疏的类别型特征中学习特征组合信息。一方面,特征组合信息能大幅提升任务的预测精度,另一方面其具备的可解释性有助于数据分析。近年来对相关问题的研究主要关注设计能够学习特征交互的深度学习组件,但这会导致模型与特征的可解释性较差。本文主要研究类别型特征的表示学习,利用自动特征工程技术,设计能够表达多阶特征组合信息的解决方案,并应用于传统机器学习模型或深度学习模型,从而使得结合该特征表示的学习模型能够同时保证预测效果和可解释性。本文提出了一个自动嵌入特征工程AEFE(Automatic Embedded Feature Engineering),一个能够从类别型特征中构建复杂二阶组合特征的自动特征工程框架。其主要流程包括类别型特征对搜索,自定义范式特征构造和多重特征选择。通过这些步骤,AEFE能智能地构造可解释性良好的时间滑窗特征,将类别型特征对映射为稠密特征表示。为使AEFE运行效率更高,本文提出基于信息增益分解的搜索方案和数据采样等加速技术。实验表明,AEFE结合梯度提升树GBDT模型在多个数据集上预测精度优于对比的深度学习模型;进一步的分析实验不仅揭示了AEFE在特征层面的强可解释性,而且也验证了各种加速技术的效果。为了完善AEFE并进一步改进自动特征工程框架的通用性与效果,本文提出基于boosting的自动特征组合编码BACE(Boosting-based Automatic feature Combination Encoding),一个对高阶特征组进行表示学习的自动特征工程框架。其核心思路是以梯度提升的方式构建特征组的表示,并利用代理模型搜索技术加速优化。其中特征组合编码阶段包含两种方案:复合目标编码器(CTE)和嵌入编码(EE)。与AEFE相比,BACE不仅在特征组合阶数上得以突破——从二阶变为更高阶,而且能结合使用的学习模型也更多,除了与GBDT结合使用的CTE方案外,还加入了与深度学习模型结合使用的EE方案,该方案能改良深度学习模型结构,使模型有选择地学习特征交互。实验结果说明,相比其他基线模型和方法,BACE均能带来不同程度的预测精度提升,同时也表明了BACE构建的高阶特征的有效性。
其他文献
根据朱莉安·豪斯的"翻译质量评佑模式"分析和评估AndrewF.Jones对余华中篇小说《一个地主的死》的英译,从而对其译文质量作出评价。通过分析和评估,笔者认为,《一个地主的死
本文认为,首先,在研究社会背景对音乐活动的影响时,要注重整个时代文化背景的影响。其次,社会背景的影响是辨证的。一方面,它是音乐活动依附的历史传统和现实环境;另一方面,同样的背
回避制度的设立是为了保证司法审判的公正,它源于西方的"自然公正"原则,它的价值在于追求程序的公正。虽然我国刑事诉讼法已有相关规定,但其仍有不足之处,仍需进行改善。随着
<正>2013年1月31日,最高人民法院发布了指导案例《徐工集团工程机械股份有限公司诉成都川交工贸有限责任公司等买卖合同纠纷案》(指导案例15号)。为正确理解和准确参照适用该
<正>2013年1月31日,最高人民法院发布了指导性案例《中海发展股份有限公司货轮公司申请设立海事赔偿责任限制基金案》(指导案例16号)。为了正确理解和准确参照适用该指导性案
提出一种基于Fisher投影的监督LLE方法,应用于植物叶片图像识别中。该方法利用Fisher投影距离取代样本的测地距离,并以此为基础计算样本的权值,加入LLE算法的代价函数中。该
量子计算凭借其出色的并行计算能力引起当下研究者们极大的研究兴趣,其中超导量子计算是最有希望实现量子计算机的方案之一。目前可以通过高精度微纳结构加工技术在一块基片
近年来信息科技快速发展,加快了档案工作数字化信息化的进程,自然资源专业档案的数字化方式被广泛应用,同时随着自然资源专业档案的数据量急剧增加,给档案数据管理的安全性带
采用金相显微镜、X射线衍射仪、扫描电镜、硬度仪和冲击试验机,研究了热处理工艺对耐磨蚀高铬合金钢显微组织、硬度和冲击韧度的影响。结果表明,经1050℃油淬和250℃回火处理
<正>"他们不是雇员,他们是人。"这是管理学鼻祖德鲁克92岁高龄在《哈佛商业评论》发表的一篇文章,表达的是大师一以贯之的核心观点,即对人的尊重。掩卷神游,不知怎地想起近来