基于集成学习的风险用户识别研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:zqnihao920
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国金融消费行业与数字化技术不断融合与发展,非法套利等黑产技术也在不断的更新,黑产团队参与活动屡禁不鲜,给整个金融消费市场的健康发展和正常运行产生了极大阻碍。对风险用户的识别方法的主要难点集中在如何在大规模与形式繁杂的互联网数据中提取与挖掘有效的信息。若不能对健康用户与欺诈用户准确区分,会因错判健康用户导致活动目标无法达成与造成严重经济损失。本文结合机器学习模型预测方法,对风险用户在营销活动非法套利的场景进行分析,并分析影响欺诈行为的主要因素。主要内容如下:首先,本文在基于电信金融活动的用户数据集上构建基于集成学习模型,建模的主要步骤包括:第一步为对数据的分析与预处理,通过对缺失值处理与数据标准化对数据清洗处理;第二步为数据特征提取,基础特征主要包含了用户画像、时间窗口的统计分析类特征,在此基础上根据业务场景提出使用用户操作、交易数据构造频序特征,并且频序类特征对模型在AUC评价指标上有3%的提升;第三步为模型的训练与预测,通过真实数据集进行实验,结果显示Light GBM对比其他模型有更大优势。其次,考虑到人工提取特征过程会忽略某些构建特征的方式,在提取出未曾在特征工程中出现的组合特征存在困难。针对此类问题,构建基于集成学习模块和深度学习模块的加权计算模型。其中,深度学习模块为深度神经网络和因子分解机构建的Deep FM,其能学习到原始特征数据的复杂相关性以学习高阶组合特征;集成学习模块为最优Light GBM模型,其预测结果具有高解释性与可靠性,并能够根据模型结果提出场景优化方案。此方法结合了手动提取特征与自动提取特征的优势,在实验上显示总体加权建模方案略优于单一模型。最后,通过描述性统计和变量重要性挖掘分析,发现用户年龄分布、风险用户区域化、监控产品申请失败率、交易习惯、登录频率情况等因素对欺诈行为的产生有较大的影响。
其他文献
随着无人控制技术的发展和现实应用场景需要,机器人技术逐渐向自主化、智能化方向发展,机器人不仅需要具有稳定的运动能力,还需要感知、识别周边环境,实现准确定位以及自主规划。在室内环境中,GPS信号容易受到干扰和屏蔽,无法为机器人提供可靠准确的位置信息,而室内光学动作捕捉系统布置繁琐、设备成本高。基于视觉的同步定位与建图技术通过少量传感器即可实现自主环境感知,能够建立可供定位和导航规划的环境地图,是解决
学位
最近几十年,针对非线性系统的自适应控制研究已经有了许多重要的成果,对整个自适应控制领域的发展起到十分重要的作用。但是,一些针对时不变参数非线性系统自适应镇定控制的算法,在具有时变参数的不确定非线性系统中并不适用。因此,具有时变参数的不确定非线性系统的自适应镇定控制问题是控制领域一直以来需要深入探讨的重要研究方向。针对具有时变参数的不确定非线性系统的自适应镇定控制问题,本文应用了一种称为变量凝结的方
学位
随着科学技术不断的迭代与更新,当今社会生活和工业领域存在的系统日趋复杂,如交通系统、冶金系统、电力系统等,这些复杂系统往往具有高度的非线性,且难以建立准确的数学模型。因此,如何去克服系统未知动态带来的问题,实现对非线性系统的控制成为广大科研工作者关注的焦点。近年来,多种基于神经网络的非线性系统智能控制方案被提出,其中局部加权学习神经网络算法由于其对系统未知非线性良好的辨识性能和灵活性,受到众多学者
学位
随着我国经济的飞速发展,人们对青少年的发育状况变得愈发重视,因为在儿童与青少年人群中出现发育问题的案例呈现增长趋势,骨龄作为评判青少年发育状况的重要指标,常常在临床上使用骨龄作为青少年儿童的成熟水平的衡量标准。如果只通过骨龄专家人工的方式来进行骨龄评测,不仅效率低而且主观性强,同时因为骨龄专家的缺少,导致有很多青少年儿童不能及早的发现问题。因此本课题设计并开发一个基于Android系统的青少年AI
学位
命名实体识别和关系抽取作为信息抽取的基本任务,可以为知识库提供准确和大量数据的支持。知识库不仅仅可以为相关产业发展打下坚实的基础,更可以通过知识库对产业进行分析总结,最终实现相关产业可持续高速发展。但是目前来说,信息抽取的研究依旧还有待更进一步的发展。命名实体识别任务存在着如何能有效利用单个字与词语的结构特征输入以及如何按词语的重要性来赋予不同的高权重的两个问题。关系抽取任务存在传统方法使用依赖抽
学位
随着信息技术的飞速发展,每个领域的数据都表现出井喷的增长趋势,对于同一个物体,可以通过不同的维度或方式进行描述,因此数据表现出特征维度高、数据结构复杂等特点,这在一定程度上推动了多视角学习(Multi-view learning)的发展。多视角数据来源于不同的领域或者采集器,不同的视角信息表现着数据的不同属性,如何充分利用视角间的共识信息以及每一视角独有的特征信息,从而提高分类的准确度,这始终是多
学位
在智能化成为了各行各业争相发展的一个重要发展战略方向的今天,车辆智能化也成为汽车行业研究的热点方向,而作为车辆智能化发展中低速自动驾驶闪光点之一的自动泊车技术,自然成为了各大主机厂、智能驾驶技术供应商和高校关于智能驾驶的研究热点;同时,随着城市停车难问题愈发凸显,车主们对于泊车系统的需求也愈发强烈,这也加速了自动泊车技术的发展。自动泊车系统由车位检测、路径规划和路径跟踪控制三个大模块组成,本文以某
学位
在我国城市规模不断扩张,居民出行需求日益个性化的趋势下,传统固定线路下的城市公共交通暴露出通勤时间过长、时空可达性较低等问题。城市定制公交作为一种新兴的公共交通模式,不仅能给居民提供高效的个性化出行服务,还能够有效缓解城市交通拥堵,推动城市公共交通的发展。然而目前定制公交的研究对象主要针对传统公交,少有考虑电动定制公交在城市公共交通系统中的应用,因此对其进行深入分析研究具有一定重要性。本文主要工作
学位
如今患心血管疾病的人群日益庞大,心电异常事件检测显得尤为重要。已有的异常心电多分类检测精度有待提高,存在数据类别不均衡,有标签数据过少以及异常心电波形存在畸变等问题。针对这些问题,本文的主要研究内容如下:1)针对现有模型无法有效地对双通道输入的心电信号提取多尺度空间信息的问题,本文提出了基于双通道的多尺度预测残差卷积神经网络模型。通过分析现有卷积网络的优劣势,结合心电信号的特点,提出利用双通道的多
学位
心电信号特征点检测是心血管疾病诊断分析的重要依据。心电信号通常会含有各种噪声,并且由于个体性差异导致波形形态多样性,为心电信号特征点检测带来一定的困难。现有的心电信号特征点检测算法的检测精度有待提高,存在依赖经验参数与人工特征提取,且无法适应心电信号波形畸变等问题。针对以上问题,本文从深度学习方向入手,研究心电信号特征点检测算法。本文的主要内容如下:1)心电信号预处理。首先,采用公开的QT数据库和
学位