基于全样本信息的伪孪生自编码器在支付欺诈识别上的应用研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:zhiming2692
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代经济与互联网科技的高速发展,线上交易量得到爆炸式增长,使得不法分子将目光瞄准线上交易市场,致使欺诈事件频发。目前根据样本数据标签的特性,将欺诈检测划分为有监督、无监督和半监督。欺诈场景的数据集具有极度不均衡性和高维性的特征,在使用监督分类算法时,通常需要引入采样或人工降维的方式对原始数据预处理。但过多的人工干预可能会改变原始样本的分布特征,影响预测结果的准确性。而在无监督场景中,学者们主要采用自编码器算法,即仅学习正常交易样本的信息,但这一定程度上会导致欺诈样本点信息的浪费。针对监督机器学习算法存在大量繁琐耗时的人工预处理导致预测结果不准确的问题,本研究将自编码器欺诈检测算法的场景应用到有监督数据中,通过对正负样本分别训练深度神经网络,提出新的伪孪生自编码器欺诈检测模型。该模型不仅具有较高的鲁棒性,而且无需对原始样本采样、降维,保持数据原有特性的同时也实现了全样本信息的利用和无监督自编码器的应用拓展。本研究通过设置低维均衡、低维不均衡、高维均衡和高维不均衡的模拟数据集,运用自编码器模型、伪孪生自编码器模型以及传统机器学习模型进行多次模拟对比实验。实验表明,相比于传统自编码器模型,伪孪生自编码器模型的AUC指标提升约1个百分点;相比逻辑回归分类器,AUC指标普遍提升约1.5个百分点;相较丁集成分类模型LightGBM,AUC指标实现部分提升。此外,还对伪孪生自编码器指标随超参数α的变化规律进行了分析。分析表明,在均衡和不均衡数据集中AUC指标呈现不同的走势,均衡样本下在α取0.5左右达到峰值,不均衡样本下在α取0.8附近达到峰值。同时,为了进一步验证伪孪生自编码器模型在欺诈场景下的实际效果,对信用卡交易数据集和Vesta线上交易数据集采用重复留出法进行实例应用。结果表明,在信用卡交易数据集,伪孪生堆叠自编码器模型AUC为0.9769,超过集成模型LightGBM一个百分点;在高维Vesta线上交易数据集,伪孪生堆叠自编码器模型AUC达到0.8260,优于常规堆叠自编码器模型和机器学习模型。由上述研究结论可得,伪孪生自编码器模型可以运用到监督欺诈检测等相关领域,提高欺诈样本识别的效率。
其他文献
<正>牛是田园牧歌时代的“形象代言人”。我国自古重视农业,有牛帮忙耕地,会大大提高生产效率。在城市化的进程中,牧童、老牛和杏花村落般的乡土田园景象似乎已经远去。不过,人们只要望见老牛黝黑的脊背,看着它不疾不徐地咀嚼着草料,留意它出神的眼睛,就会渐渐被带回到田园牧歌的时代,让人联想到周武王伐纣功成后的“放牛于桃林之野”,或是“日之夕矣,羊牛下来”等《诗经》中已成经典的乡村晚景。而这些美好安宁的诗情画
期刊
超核物理是核物理研究的前沿领域之一。目前对超核的研究方法基本是基于研究普通核的原子核模型,结合不同的超子-核子相互作用,形成扩展的超核模型,对超核的性质进行研究。在SkyrmeHartree-Fock(SHF)模型中引入唯象的Skyrme型超子-核子相互作用或微观的超子-核子相互作用,对Λ超核等奇异核的性质进行了非常有效的描述,但是超核的性质对不同的超子-核子相互作用呈现出不同的依赖特征。本文以Λ
学位
目前,我国对体育运动的发展高度重视,《体育强国建设纲要》、《关于深化体教融合,促进青少年健康发展的意见》和《“十四五”体育发展规划》中都强调了学校体育之于竞技体育后备人才培养的重要性。高校体育专业作为竞技体育后备人才培养的重要组成部分,强调了学校体育的重要地位,羽毛球运动项目是校园体育活动中不可或缺的部分,其中男子单打是最受欢迎的羽毛球项目之一。广西民族大学羽毛球运动项目在南宁市高校具有较强影响力
学位
广西作为林业大省,林业经济发展和生态效益的协调依靠广西林业经济的持续发展,而产业结构的合理化是实现经济协调和稳定增长的客观要求。在绿色经济发展目标的指导下,广西林业产业的发展面临新的形势和机遇,因此通过对林业产业结构优化合理路径的选择,最终实现林业经济的健康发展是本文的主要研究目的。本文以广西林业产业结构为研究对象,综合运用灰色关联度分析法、灰色预测分析法、区位商分析法和偏离份额分析法对林业产业结
学位
恶性肿瘤(癌症)现已成为危害人类健康的最主要疾病之一。在每年,大约有一千四百万新的恶性肿瘤病人以及将近800万人去世。传统的抗肿瘤方法主要包括化疗、手术治疗和放疗,不仅毒副作用大,而且易复发、易转移,所以迫切需要开发有效的抗肿瘤技术新体系,以激发免疫反应、增强抗肿瘤效果。但近年来,也有一些较新型的抗肿瘤手段,如:光动力治疗(PDT)、和光热治疗(PTT)和声动力治疗(SDT)等,具有微创性、时空选
学位
当前,人工智能应用正以前所未有的速度和广度,深刻改变着人们的生产生活,其中,艺术与创意产业也在人工智能的赋能之下,催生出了新的样貌、新的业态、新的场域。基于对人工智能艺术创作机制的理解,如何借助人工智能更好地创作艺术作品?首先是降低技术壁垒,让AI艺术创作更简单、更有效;其次是打破内容局限,让AI艺术创作更丰富、更多元;最重要的是,突破思维局限,让AI艺术创作更具创造力。
期刊
近年来互联网广告逐渐演变成艺术思维创意与逻辑算法数字化相结合的产物。精准推荐助力广告主、用户、流量平台共赢,互联网平台庞大的用户流量提供数据支撑,机器学习、深度学习领域诸多算法的创新提供技术支持。互联网广告点击率预估是广告竞价排序的核心逻辑,是广告个性化推荐的核心技术,因此对其研究具有重大的商业价值和实用意义。本文基于H平台互联网广告点击数据集,依次对其进行可视化、描述性统计分析、基础及创新性特征
学位
本研究以木薯淀粉为原料,采用超声辅助醇沉法制备了淀粉纳米颗粒(SNPs),通过对沉降获得SNPs进行后处理,研究了在无水乙醇保护下高温处理对SNPs结晶性的影响;此外,以山奈酚和叶黄素为模型分子,研究了醇沉法制备淀粉纳米颗粒过程,同步实现药物的包埋负载。具体研究内容和结论如下:1.经醇沉法制备的SNPs均为无定型,而结晶性是影响SNPs稳定性及其应用范围的重要因素。本研究在SNPs的制备基础上,在
学位
近年来网络信息和知识以指数式增长,给用户带来了“信息过载”的问题。而推荐系统的出现,改善了信息过载带来的负面影响。此外,利用用户的各种行为数据,可以挖掘用户的兴趣,从而实现个性化推荐。用户兴趣中最常用的数据是评分数据,但评分数据的缺点在于无法将用户所有的兴趣悉数呈现,并且存在数据稀疏的问题,影响推荐效果。本文选择引入知识图谱到推荐方法中,一方面作为辅助数据,可以缓解以往协同过滤中存在的一些问题。另
学位
突灶螽属Diestramima Storozhenko1990隶属于直翅目Orthoptera、驼螽科Rhaphidophoroidea、灶螽亚科Aemodogryllinae、突灶螽族Diestramimini。迄今为止该属在世界范围内纪录有3亚属41种,中国记录有3亚属31种。该属所有种类第7腹节背板均有较长突起,这是不同物种之间分类鉴定的重要依据。由于突灶螽无翅,不能做长距离迁徙,且仅分布于
学位