基于随机森林的个人行为预测关键技术研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:wushupei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
个人行为预测(以下简称行为预测)是通过一个人过去的行为和表现预测其未来的行为和表现。行为预测可以帮助我们更好地认识目标对象,既可以提前采取引导措施以获得期望的结果,也可提前实施防范手段以避免坏结果产生,因此行为预测研究在风险防范、精准营销、员工挽留等许多领域都具有重要意义。现有的预测方法已经取得了一定的成果,然而没有处理好行为数据存在的特征维度高、有效数据不足、数据类不平衡、数据动态增加这一系列问题,忽略了方法的准确度、计算效率、普适性等方面的问题,综合性能相对较低,影响了其在实际中的应用。针对已有的行为预测方法存在的缺陷和不足,本文构建了基于随机森林的行为预测框架,解析了框架中的关键技术,提出了三种基于随机森林的行为预测算法,并分别应用于员工主动离职预测、新金融产品购买预测以及信用卡客户违约预测的实践中验证其有效性。本文的主要内容如下:(1)针对行为预测问题的特点,结合行为预测问题存在的数据不平衡、特征维度高、数据量不足以及数据动态增加等特征,构建了基于随机森林的行为预测框架。该框架由数据收集、数据预处理、特征工程、数据拆分、模型建立、性能评估、改进优化和分类预测共八个模块组成,并基于此框架提出了三种不同的基于随机森林的行为预测方法。(2)针对数据类不平衡和特征维度高的一类行为预测问题,提出了加权二次随机森林算法。首先对特征重要性排序,实现降维,然后采用随机森林建模,利用F-measure值计算每棵树的权重,通过加权投票得到分类预测结果。通过员工真实数据集进行实验,表明该算法与随机森林、决策树、逻辑回归、BP神经网络等算法相比,在多项评估指标上都有显著的提高,尤其是召回率和F-measure。实验结果可帮助人力资源部门更准确地预测员工离职,同时还可发现影响离职的重要因素,为降低员工离职意愿提供参考。(3)针对有效数据不足、冷启动等行为预测问题,提出了迁移随机森林算法。该算法首先将大量与研究对象相似的历史数据作为源域训练样本,将从研究对象获得的少量数据作为目标域训练样本,源域数据随机有放回抽样与目标域数据的全量相结合,形成训练数据集。然后为每一个样本赋予权重,给予目标域样本更大的权重。在生成随机森林的过程中,样本权重既参与基尼系数的计算以决定节点分割的特征,同时又参与每棵树权重的计算。最后采用加权投票确定最终的分类结果。该算法针对葡萄牙银行直销数据集就新金融产品客户购买行为进行了预测,可精准锁定目标客户。实验表明该算法与随机森林、决策树、逻辑回归和自适应提升算法相比,在多项评估指标上具有更好的性能。(4)针对数据动态增加的一类行为预测问题,提出了增量随机森林算法。该算法首先建立基础随机森林模型,然后让随时间陆续到达的样本全量直接参与增量建模,接着构建支持增量学习的分类决策树,最后丢弃贡献最小的样本以释放不必要的空间占用。该算法针对信用卡客户违约行为进行了预测,可实时根据动态增加的数据调整模型,以达到更好的预测效果。实验表明该算法与随机森林、决策树、逻辑回归、朴素贝叶斯、BP神经网络、支持向量机相比,在多项评价指标上性能更好。
其他文献
常规水处理流程通常包括絮凝、沉淀、过滤和消毒四步,絮凝是其中重要一环。絮凝处理效果很大程度影响后续的处理工艺和出水水质。近年来,随着对水质要求的不断提高,水处理领域对高性能、高效率和多功能的絮凝剂的需求日益增长。絮凝剂的杀菌作用引起了众多研究者的关注,但絮凝剂的杀菌过程、杀菌机理、杀菌效果和杀菌广谱性有待深入探究。此外,絮凝后对水体中细菌种类的高效、准确识别也是论文研究的重点。论文首先研究无机混凝
氨,作为最基本的化工原料之一,不仅可以用于生产化肥,而且也被认为是未来理想的氢能源载体。从经济发展与人类科技进步的角度考虑,开发绿色高效氨合成技术至关重要。近年来,电化学固氮合成氨技术因其反应条件温和、原料来源丰富(氮气和水)、工艺简单、环境友好等优点,在国际上引起了广泛关注。此外,洁净的电能作为该技术的驱动力,能够很好地与可再生能源的间歇性相兼容,有望实现分布式、模块化合成氨。然而,当前限制该技
冲击载荷是机械系统和武器装备长期面临的技术难题,而传统的被动缓冲器通常是利用横截面积可变的节流小孔产生阻尼力来吸收冲击能量,以提高系统的安全性和稳定性。被动缓冲器只能对某种特定的冲击实现良好的缓冲效果,不能很好地解决多工况的冲击问题。磁流变技术的出现为自适应缓冲器的研究提供了全新的解决方案。然而,以磁流变液(Magnetorheologicalfluid,MRF)作为控制介质的磁流变缓冲器(MR
覆冰对输电线路绝缘子电气外绝缘特性产生严重影响,为此国内外学者对冰面交流电弧特性、数学模型和人工覆冰绝缘子交流闪络特性进行大量研究,但研究冰面交流电弧特性的电弧长度较短、自然覆冰绝缘子交流闪络特性研究缺乏系统性。本文在国家自然科学基金支持下,结合我国超/特高压输电工程建设需求,在大型多功能人工气候室系统地开展了不同电弧长度(10~60 cm)的交流电弧特性研究;在雪峰山野外科学观测研究站开展了自然
化学领域研究的核心内容离不开化学反应。化学反应的研究过程中会涉及到复杂的反应机理,而动力学理论模拟则是从微观层次上研究反应机制的重要手段。本文主要运用动力学方法对三个重要的化学反应进行了理论模拟研究,得到了丰富的动力学相关信息,从而帮助人们从微观层次上更进一步地了解化学反应的本质。本文的第一个反应体系是OH+H2O反应。OH+H2O→H2O+OH这一对称性反应,在大气化学、燃烧化学、星际化学、环境
关节软骨作为人体膝关节的应力传递组织,在日常生活和竞技运动时承受和传递力学负荷,并减少和缓冲股骨和胫骨的震动和冲击。研究显示,当膝关节过度运动、负重或受到严重创伤时,软骨组织会出现结构和功能的损伤、破坏,继而引起组织反复炎症和疼痛,从而引发骨性关节炎(Osteoarthritis,OA)。随着世界人口老龄化现象成为常态,OA的发病率逐年递增,在55岁以上人群中高达80%。OA是一种累及软骨、骨和骨
随着工程技术的成熟和抗震需求的提高,单一阻尼特性材料组成的结构已不能完全满足不同建筑功能的要求,越来越多由不同阻尼特性材料组成的混合结构被应用到实际工程中,如钢-混组合结构、设置阻尼器的耗能结构等。混合结构的阻尼矩阵不再满足与质量矩阵、刚度矩阵的比例关系,设计规范中常用的基于比例阻尼假定的抗震设计方法,亦不再适用于非比例阻尼线性体系地震作用效应的求解计算。非比例阻尼线性体系的动力反应在采用数学动力
髓核组织(nucleus pulposus,NP)退变是导致椎间盘退变的主要因素。退变的NP内,胞外基质(extracellular matrix,ECM)合成能力下降,NP细胞发生凋亡和衰老,最终导致NP的结构和功能丧失。赖氨酰氧化酶(Lysyl oxidase,LOX)可以通过催化ECM中胶原蛋白和弹性蛋白共价结合来帮助ECM维持其稳定性和强度。研究发现,LOX可以促进软骨细胞ECM合成,对骨
雪崩动力学行为即是物理系统受外部刺激从而产生一系列跨越多个尺度的间歇性反应,这类反应是非线性和非连续的,称之为雪崩信号。当远离平衡的系统在外部作用驱动下,系统内部的演化由短程局部转变为长程相关,这个过程是一种快速簇拥的雪崩行为。雪崩动力学与不同尺度的空间域的转换息息相关,现今,雪崩动力学已衍生为一个涉及复杂系统演化、材料科学、股票市场、神经网络、生物进化及地球科学等多领域的科学问题。雪崩行为的重要
在大数据时代,计算机视觉得到了长足发展。但是很多模型的成功都依赖于大规模有标签的样本数据,在现实中却包含无数的新场景,模型需要面对不同视角、不同背景和不同光照的场景。在这种情况下,很多原本超越人类性能的模型无法预测新的任务,可能会遭受性能大幅下降。从头学习模型需要大量的标签样本,一方面需要耗费大量的人力资源成本。另一方面会造成时间成本以及硬件资源的浪费。考虑到数据或者任务之间存在相关性,可以通过域