基于集成学习的视频平台用户活跃性预测研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:aa654518
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,我国的网络用户规模不断扩大,各网络视频平台的用户数目也呈现出增长趋势,但网络视频用户的渗透率有所下降。因此,我们有必要研究视频用户活跃性的影响因素并对其进行预测,使得视频平台可以采取有效措施提升视频用户的活跃性,以促进我国网络视频行业的健康发展。本文以某通信公司的用户数据为例,对某视频平台的用户活跃性进行分析预测。首先,选择对用户活跃性可能产生影响的特征,包括用户基础特征、用户套餐订购特征、用户标志特征和用户APP使用特征四大类,并通过特征组合的方法衍生出一系列新的特征。对进行特征组合后的数据进行缺失值处理、异常值处理、数据标准化等数据预处理工作,并使用ADASYN算法对其进行样本不平衡处理。其次,使用过滤法和嵌入法进行特征选择。先剔除方差为0的特征,再通过比较不同类别的特征分布和卡方检验法剔除对用户活跃性影响较小的特征,然后使用GBDT算法计算特征重要性,并利用相关系数最终筛选出影响视频用户活跃性的10个特征。然后,通过网格搜索法进行参数调优,利用上述10个特征建立随机森林模型、Ada Boost模型、XGBoost模型三个集成学习模型并使用软投票法、Blending算法、Stacking算法建立三个融合模型。进而分别考察这六个模型的各项评价指标。最后,通过对比分析各指标发现,使用软投票法对随机森林模型、Ada Boost模型、XGBoost模型融合所得的分类器效果最好,F1的加权平均达到95%,模型提升度达到12.14,并具有较好的稳健性,适用于预测视频平台的用户活跃性。
其他文献
在过去的几十年中,许多研究人员将重点放在动力学系统的Lyapunov渐近或指数稳定性上.渐近或指数稳定性的典型特征之一是,随着时间趋于无穷大,解将趋于平衡状态.因此,难以实现快速的瞬态和高精度的性能.有限时间稳定性作为渐近稳定性的特例,意味着系统在有限时间内达到平衡状态,这为解决许多工程问题提供了一种有效的工具.经典的有限时间稳定性定理在许多领域得到了广泛的应用,如复杂网络的有限时间同步,航天器的
学位
数学学习障碍是当前国内外数学教育界所亟待解决的重大难题之一。在数学学习过程中出现的学习障碍如果不能及时的调整,将会影响学生下一阶段的学习,甚至影响其一生。在数学课堂教学环境中,学生个体的学习状态和能力对于学习效果有直接影响。教学行为干预模式(Responsiveness-to-Intervention,RTI),最早兴起于美国。研究者们发现该模式能够有效克服识别数学学习障碍的传统模式容易误诊、干预
学位
本论文主要研究距离控制数和距离控制圈的相关问题.设G=(V(G),E(G))为一个简单图.如果对于任意不属于顶点子集S的顶点v,都在S内存在一个顶点u满足dG(u,v)≤2,则我们称S∈V(G)为G的2-距离控制集.G的2-距离控制数2(G)是指G中最小的2-距离控制集的大小.设m是一个非负整数,给定图G上的顶点v和圈C,若G中任意的顶点v到圈C的距离都小于等于m,我们称圈C是图G的一个m-距离控
学位
本文发展了双参数奇异摄动问题在Bakhvalov-type网格上的有限元方法.双参数奇异摄动问题是奇异摄动问题的一个分支,它们出现在物理学和力学的许多领域中,其中包括液晶材料和化学反应的数学模型,电子网络,控制理论等.因此近年来关于此类问题的研究引发了广泛关注.众所周知,由于小摄动参数的存在,奇异摄动问题的解中通常会存在变化剧烈的层,此时经典的数值方法无法给出高质量的数值解.因此人们开发了不同的数
学位
在核心素养的要求下,学生不仅要掌握基本的知识技能,还要体会其中所蕴含的思想方法,发挥学习的主动性,对知识充满好奇心、求知欲。因此教师应该发挥他们的主导作用,引领学生学会主动学习。函数的基本性质是高中数学学科中比较重要的一部分内容,所包含的知识点不仅多而且十分的复杂和抽象。学生接受起来不容易,因此需要寻求更好的教学方式进行教学。而样例教学对学生来说是一种有效的教学方法,并且它也是发挥学生主动性的一种
学位
当前,注重数学语言的表达是世界各国课程发展的趋势,加强数学语言的表达和交流也是我国课程标准的要求,数学语言的表达、交流水平同样也决定着核心素养的落地水平。但在研究分析中发现,当前对于数学语言的研究关注热点,主要在数学语言的重要性以及如何提升学生的数学语言表达能力方面,对于高中生数学语言表达障碍的研究较少且不够深入,这也说明,对于数学语言表达障碍并未形成深刻认识。因此,全面分析高中生在数学语言表达方
学位
《普通高中数学课程标准(2017版)》指出,数学学习要以学生为主体、以学生发展为本,创设合适的情境引发学生思考,引导学生把握数学学习的本质。由此可见,数学学习愈加重视对本质的认识。因此,概念教学受到越来越多的重视。并且可以发现,新课标的理念与弗赖登塔尔的再创造思想相吻合。基于此,本文以再创造为理论基础,选取高中的核心内容——函数作为研究对象,进行概念教学的相关现状研究。本文通过对现有文献的研究,梳
学位
在当今社会,个人信贷业务快速发展,信贷机构从贷款中获利的同时,也承担着相应借款人违约的风险.如果借款人发生违约行为,信贷机构会遭受严重的财产损失,因此,信贷机构希望通过贷款申请人提供的征信信息来识别违约风险.与此同时,数据挖掘方法在金融风控领域得到广泛应用,使用数据挖掘方法来预测个人贷款违约行为就成为了重要的研究方向.本文以国外信贷平台Lending Club用户的2017年信贷记录为例,建立个人
学位
近年来,随着互联网技术的发展,电信运营商承载着大量的用户数据。同时随着经济的不断发展,电信用户的个性化需求也日益凸显。在通信市场已经达到饱和的状态下,面对用户产生的大量数据和个性化需求,精准营销、及时主动推荐以及实现企业价值和客户价值的共同提升将是电信运营商面临的新挑战。基于新的背景新的挑战,本文利用数据挖掘技术对电信用户进行评分并给出合理的用户提值策略以维持甚至提高用户的粘合度。首先,本文对数据
学位
随着生活水平的提高,国家对于女性健康给予了更多的关注与支持,宫颈癌作为常见的恶性肿瘤疾病严重威胁女性健康。研究表明,发展中国家的宫颈癌发病率远高于发达国家,我国是世界上最大的发展中国家,更应该对宫颈癌进行预防和排查。用于检验宫颈癌的传统电子影像分析耗时耗力,成本过大,加重了医务工作者的负担。本文利用机器学习算法构建宫颈癌预测模型,提高宫颈癌诊断效率和预测准确率,减少人力物力的损耗,更好地利用有限的
学位