基于异质集成学习的在线教育用户购买行为预测

来源 :中南财经政法大学 | 被引量 : 0次 | 上传用户:zzw200512168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展和智能手机的普及,互联网用户规模日益扩大,其数量呈指数级增长,互联网企业也从电子商务、社交等单一行业开始跨行触及多个传统领域,在线教育便是其中之一。从2012年开始,国内的在线教育行业逐渐进入较快的黄金发展时期,在线教育平台也凭借其自身的便捷性、可重复性和针对性,越来越受到学生和家长的认可,导致各大平台用户数量的激增,也为行业带来了大量的用户行为数据。然而,在拥有如此大的用户基数的众多在线教育行业中,能够真正实现盈利的公司却不多,因此,在用户的海量行为数据中提取分析用户的需求,预测用户的行为成为了值得研究的新课题。当前机器学习模型在互联网的诸多领域中已经取得了不错的效果,而在线教育还处于高速发展中,有部分学者对在线教育的发展现状、盈利模式等进行了研究,鲜有学者将机器学习与在线教育结合研究。本文梳理国内外对用户购买行为预测的方法,考虑在线教育行业用户数据特征,基于真实的在线教育用户行为数据集上,筛选出用户的相关行为特征,针对用户的购买行为预测问题展开研究。本文重点内容主要为三个部分:(1)介绍在线教育的相关背景以及关于用户购买行为预测的国内外研究现状,对当前取得较好应用效果的传统机器学习模型,如支持向量机(Support Vector Machine,SVM)、逻辑回归(Logistic Regression,LR),集成学习三大方法以及神经网络模型的理论和架构进行了描述。(2)对原始数据进行异常值剔除、去除重复值等预处理之后,在特征工程中,为了提高模型的效率,采用稳定性选择法的特征筛选方法选择出重要性更高的用户特征,接着结合业务背景和考虑用户行为数据集存在稀疏性与时序性等特点,提出基于时间滑动窗口的方法构建时序行为特征,最终提取171维特征向量。同时使用随机过采样算法解决原始数据集正负样本不平衡问题。(3)构建深度森林模型来预测用户在未来的购买行为,并通过传统机器学习模型和集成学习模型来进行实验对比,接着使用Stacking模型进行细粒度预测研究,预测发生购买行为用户的购买偏好和购买时间。实验结果显示,以上两个异质集成学习模型在准确率和效率上均优于传统的机器学习模型,从而证明了异质集成算法在在线教育领域应用的有效性。
其他文献
微博,具有互动性强、表达方式多样、内容多元等特点,一经发布便吸引了大批用户,在短短几年时间内用户量便已达到亿级,且仍呈上升趋势,是中国主流的社交媒体之一。不同年龄段、不同领域的用户拓宽了微博数据的信息维度,复杂的社交网络提升了信息的传播速度。微博的上述特点,使其成为信息分享与传播的关键场所,进而积攒了海量数据。如何获取、保存这些数据,并从中提取有价值的信息,是大数据时代的重要课题。主题提取技术用于
学位
追求幸福是人的天性,提升居民幸福感也是国家的重要目标。本文综合考虑宏观和微观因素构建影响居民幸福感的分析指标,在此基础上建模分析,挖掘宏观环境和微观环境中影响居民幸福感的主要因素。不仅可以精准定位低幸福人群,对其进行精准扶持,而且可以基于居民需求对国家的产业与经济重新布局,进而提升居民的满意度和幸福感。围绕居民的幸福感情况,本文开展了以下四个方面的研究:1.综合宏观和微观两方面因素构建分析指标。选
学位
随着文化和信息科技、数字化等现代技术相结合催生出的新兴文化产业的迅速崛起,文化产业呈现出产业发展的新优势。2020年,中共中央明确提出实施文化产业数字化战略,以促进文化产业与相关产业融合作为文化产业未来发展的重点。传统的文化产业不足以适应目前经济社会中人们的精神文化需求,只有新兴文化产业才能推进我国由制造大国向创造大国的转变,我国新兴文化产业发展方兴未艾,前景十分广阔。推进新兴文化产业与相关产业的
学位
不规律的作息习惯和不健康的饮食方式,导致心血管疾病跃居威胁人类健康常见病症的榜首。而从心脏核磁共振成像中精确分割左心室内外膜,是临床上定量分析的必要前提,是进一步诊治心血管疾病的重要步骤。此外带标记线的核磁共振(tagged Magnetic Resonance,tMR)成像还可用于心脏运动追踪。这对及时发现病症并提供针对性治疗有重要现实意义。由于心脏结构的复杂性导致其精确分割仍是一项极具挑战性的
学位
近年来,在聚集信息、资讯发布和舆论传播的过程中,新闻媒体发挥着重要的媒介作用,对资本市场的影响日渐突显。一方面,作为信息供给者,媒体对公司、行业的信息挖掘,给市场参与者带来决策参考和信息补给,另一方面,媒体的商业价值逐渐被挖掘,由媒体商业价值驱使的新闻报道会对信息进行选择性取舍,并在标题和正文中使用引人注目的语言表达,通过其构建的议题框架传递其情绪,影响市场参与者对事件的认知和观点态度,从而进一步
学位
股票市场投资是众所周知的“激进型”投资方式,区别于银行存款、国家债券等传统金融投资方式的稳健,股票市场投资往往存在较高的风险,但对于广大投资者的逐利心理而言,这种门槛低、收益高、简单且直接的投资方式正投其所好,股票市场投资成为了近年来最受大众青睐的投资方式。因此如何更加精准的对股票市场进行预测,帮助专业投资知识匮乏的投资者们防范风险、获取有效信息、获得利益成为了有实际意义的研究课题。互联网时代的到
学位
在大数据时代,因果推断的研究在近二十余年来得到了快速的发展,并逐渐运用于医疗、金融、互联网和社会研究等领域。在观测性研究中运用倾向得分对于条件平均处理效应进行估计一直是因果推断领域的热点,但是基于倾向得分的条件平均处理效应估计常常由于倾向得分的模型设定偏误或者估计偏误而导致的协变量不平衡从而进一步影响估计结果。本文将协变量平衡运用在半参数核方法以及广义随机森林模型中用以提升相应的模型对于条件平均处
学位
信息抽取是指从文本中抽取有效信息的系统,主要包括实体抽取、实体关系抽取和事件抽取等,信息抽取模型效果的好坏直接影响阅读理解、自动问答、机器翻译等下游自然语言处理任务的性能,因此信息抽取任务作为自然语言处理的一项关键任务逐渐成为研究热点。本文主要探究命名实体识别和事件检测两个基本任务。在神经网络广泛应用于自然语言处理任务之前,命名实体识别和事件检测任务多采用基于统计机器学习的方法,但此类方法严重依赖
学位
全社会用电量是衡量地区经济发展一个重要指标,是“克强指数”重要组成部分。能否精准预测全社会用电量,是检验一个电力企业是否进入现代化的标准之一。精准的预测社会用电量模型不但可以为电力供应企业提供决策支持,还能减少由于过量发电带来的电力消耗。在对全社会用电量的影响因素进行分析时,根据选取影响社会用电量的因素,使用随机森林进行变量重要性排序。选取日平均气温、发电量、水泥产量、对外贸易出口额、房地产投资值
学位
随着美国政治经济环境的不断变动,美国货币政策和贸易政策的不确定性也随之增大。由于美国和美元在全球经济中占据主导地位,美国货币政策和贸易政策的不确定性对全球货币和金融市场的溢出效应明显。因此,探究美国货币政策和贸易政策的不确定性对人民币汇率的影响,进而预测未来汇率的趋势非常重要。通过预测未来汇率,不仅能够预防汇率风险,也可以为制定国家货币政策提供参考。本文分析了美国货币政策和贸易政策不确定性对人民币
学位