基于二次组合的特征工程与XGBoost模型的用户行为预测

来源 :科学技术与工程 | 被引量 : 0次 | 上传用户:dfvg43g3544
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征构造的难题在数据挖掘过程中一直存在,传统固化的特征工程对于业务场景千变万化的数据挖掘任务所带来的效益十分有限,因此解决特征工程的特征构造问题已经成为数据挖掘的瓶颈之一;尤其在机器学习算法快速发展的情况下,特征逐渐成为模型中急需重视的部分。基于电商平台的用户行为数据,在原有特征群的基础上提出了二次组合统计特征的构建方法。利用二次交叉衍生出丰富而又切合业务场景的特征群,同时结合两种滑动窗口的方法,分别是定长滑动窗口获取更多的训练样本,变长滑动窗口获取具有时间权重的训练特征,以此来最大限度地还原出用户真实的行为习惯。最后,使用不同的特征组合结合降维的方法建立对照检验模型;并利用线性的逻辑回归模型、线性支持向量机以及树模型极端随机森林与XGBoost对模型进行交叉验证。结果表明,组合特征在树模型的算法中得到了非常好的表达效果;而且无论在线性模型还是树模型中衍生特征群模型的F1值都优于基础特征群。
其他文献
本文以厦门市湖里老工业区为例,研究了对老工业区进行产业功能转换的方法,提出应突出政府在产业功能转换中的重要作用,从整个地区发展的角度,尽早介入对老工业区进行科学的规
本文主要站位于语用学的立场,从交际意图的角度出发,以对中学课堂教学的实地观察及对课堂实录的事实分析为基础,全面描述并系统阐释中学教师课堂教学言语行为的实现过程,即告
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
干旱、寒冷、盐碱等是作物在生长发育过程中常见的逆境因子,作物的生长发育和产量都会受这些逆境因子的影响,所以越来越多的研究者热衷于作物抵抗逆境胁迫的研究。LEA蛋白(胚
民乐作为中华文化艺术的瑰宝,在推动'文化自信'和'文化走出去',促进中外人文交流和民心相通方面发挥着积极的作用。本文围绕'一带一路'倡议,以江苏&
分析了轻质燃料油中油液一固体间、油液一油气间和油气的静电起电机理;简要概括了通过控制流速、加油方式、控制杂质、防止作业起电和添加抗静电剂等防治静电起电的防范措施。
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
期刊
新时期下的中职学校在授课的过程中更加强调其内容与导向的职业性,而作为一门综合性的文化基础学科,中职教学中的数学教育不仅在整个的授课过程中起到了十分积极的推动作用,