识别移动支付欺诈风险的机器学习方法研究

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:longxmb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网、大数据等新兴技术已经在中国的大地上蓬勃发展了很多年,拥有快捷、便利等优势的电子商务系统雨后春笋般涌现,移动支付已然成为人们茶余饭后的谈资,网购、线上交易对现代人来说已经不可或缺。显而易见,便捷的确是互联网金融带来的优点,但同时而来的欺诈问题也需要引起高度警惕。《中国互联网络发展状况统计报告》揭示出的数据真是触目惊心!2020年,超过20%的互联网用户的信息被走漏,多达10%的网民碰到木马病毒的攻击,账号、密码被窃取的用户占比将近8%,逾15%的用户已经成为网络电信诈骗的目标。为了躲避网络安全部门的监控,不法分子一般会利用多类软、硬件进行作弊,捏造子虚乌有的身份信息进而欺诈攫取利润,目前已经构成一条完整的欺诈犯罪产业链。这条产业链行动迅速、协同多边,对互联网金融业务的浸透简直无孔不入,每年涉及的犯罪金额数超过千亿元。鉴于应用场景众多,移动支付是互联网金融举足轻重的组成部分,如影随形的是与此有关的安全问题。相关黑产从业者无所不用其极,利用采取包括伪造Wi-Fi、散布木马病毒以及山寨手机软件等在内的一系列恶劣行径,非法获取了用户的姓名、身份证号、手机号、住址等隐私,进而实施欺诈变现,令人防不胜防。可想而知这威胁的主体不仅是千千万万的个人用户,更挑战了整个互联网金融、电商体系的安全性,对整个经济社会产生不利后果。互联网金融业务在持续发展壮大,更理当重视与之有关的风险,提前防范。因此目前最紧要的是运用先进的大数据处理技术,构建细致、高效、广泛的智控模型,结合定性、定量分析方法精确甄别欺诈风险,获得事半功倍的效果。本文首先整理参考了目前现有的国内外关于识别移动支付欺诈风险的方法以及机器学习方面的文献,经过深入细致的研究发现:移动互联网、大数据等信息科学技术与日俱进,移动支付技术日新月异,趋近完善、成熟。目前,拥有着管理方便,隐私性强,空间、时间限制性小,综合性强这四大特点的移动支付,已经深入到了人们生活中的各个角落,并在世界各地疾速扩张。然而利用移动支付的优势进行网上洗钱的欺诈风险接踵而至。为了避免移动支付欺诈而带来的各种社会经济问题,就必须对移动支付确定监督对象、确立监督体系、改进移动支付运行环境、监管往来资金、防止洗钱行为、减少信用风险、强化资金监管等。国内外学者对移动支付及其欺诈风险识别等相关方面做了大量研究。现有研究包含了定性分析法、定量评估法。定性分析法包括专家调查、流程图等;定量评估法包括决策树、支持向量机、贝叶斯网络分类器等,拓展了人们对移动支付欺诈风险甄别的认知。然后本文借助于Kaggle网站(网址:https://www.kaggle.com/)的《Synthetic Financial Datasets For Fraud Detection》中所提供的样本进行建模。被称为Pay Sim的模拟器合成了本次的数据集,模拟器使用来自真实数据集的数据生成类似于正常交易操作的合成模拟数据集,并注入欺诈行为,有助于研究者建立反欺诈模型并评估其性能。Pay Sim从来自非洲国家的移动支付服务中提取到一个月交易流水日志,参考以上日志模拟出新的移动支付交易。原始日志由一家跨国公司提供,该公司是移动支付金融服务的供应商,目前在全球14个国家(地区)运营。最后的实证研究阶段,本文建立了行业众所周知的逻辑回归模型,同时以此为准绳,实践了神经网络、XGBoost两个模型的构建,过程中具体介绍了上述三类模型以及相关联的其他算法模型,探索并调节模型的参数以取得最优学习效果。实践中发现:使用原始数据代入模型取得的结果一般,于是依流平进,着眼原始数据特征效果的局限性,采用“多项式扩展、交互项扩展”、“高斯核函数”两种措施对原始数据进行特征工程改进。实验对比了无特征工程和进行了“多项式扩展、交互项扩展”以及“高斯核函数”特征工程后,逻辑回归、神经网络和XGBoost分别在精确率、召回率、误杀率、AUPRC等指标上的性能。末了得出结论:本次研究实践效果一枝独秀的是XGBoost算法,性能上相较其他二者无出其右,可用于移动支付欺诈检测的日常践行。结尾审视了本次研究中的诸多不足之处,并对移动支付反欺诈的前景满怀憧憬。
其他文献
非实用性文本的生成,例如小说、剧本的自动生成,通常停留在学术探索层面,少有落实到实践的成果。文本生成模型即便能够生成表面符合常识,格式上符合要求的文本,也常常存在缺乏逻辑,难以理解,上下文不连贯的缺点,无法实际运用在工作中。本研究立足于实践,尝试使用深度学习技术和剧本写作理论相互配合的思路,解决上面提到的问题。本研究的出发点为游戏剧本写作。剧本写作是移动游戏开发中的重要一环。在游戏的实际开发中,每
学位
随着数据处理技术的飞速发展,自然语言处理(NLP)技术在文本挖掘和智能分析领域应用越来越广泛,并且与计量金融相结合,延伸扩展到金融领域。本文基于python语言,收集相关文本,扩充构建了金融领域、货币领域词典;建立了货币政策强度、上证指数月收益率及个股股评情感序列;基于计量金融软件Eviews和R语言,分析了货币政策和股评情感对股市收益率的影响,并评价了相关模型的预测能力;主要完成以下内容:本文收
学位
作为金融市场一项重要的投资交易产品,黄金因其自身的优点,在期货交易中扮演者举足轻重的位置。黄金价格无论是对于投资者套期保值,还是经济环境的平稳运行都至关重要。研究影响黄金价格的因素并对黄金价格波动进行预测具有极其重要的现实意义。本文从商品属性、投资金融属性和货币属性三个方面分析黄金价格的影响因素及影响机理。研究发现黄金市场的供求关系会直接影响黄金价格,黄金供给与黄金价格之间呈反向变动,而需求与黄金
学位
可转换债券是一种高度复杂的金融衍生品,实际上是一种混合金融工具,兼具权益资本和债务工具的双重特征。对于企业,它又是成本低廉、灵活性高的融资工具;对于投资者,可转债是既可使其拥有高收益机会又可获取最低收益保障的投资工具,因此备受资本市场青睐。相较于国外较为成熟的可转债市场,我国可转债市场起步晚,尚处于初级阶段。尽管可转换债券在实践中很受欢迎,但正是由于其双重属性,且存在各种复杂的附加条款,面临诸多风
学位
在轨维护一直是空间监测与服务领域中的研究热点,航天器自主接近和空间机械臂捕获是成功执行在轨维护任务最重要的基础。目前成功完成这两阶段自主操作的关键在于合理的运动规划,但由于其具有维度高、约束多、最优性与实时性要求高的特点,针对其设计适用的运动规划方法是极具挑战性,故本文针对航天器近距离接近和空间机械臂捕获两方面的运动规划问题进行研究。针对航天器与空间目标最终接近阶段的运动规划问题,考虑接近过程中的
学位
隐源模型作为一个非参数的,需要少量前提假设的,对时间序列进行分类的模型在社交网络热点话题预测、金融时间序列分析等方面都取得了显著的效果。波动率作为衡量金融市场投资风险的重要且常用的指标,它在金融衍生品的定价、交易策略以及风险控制中都起着重要的作用。波动率表示了资产收益率在一段时间内的波动程度。本文根据隐源模型的理论设计交易策略,并将波动率作为变量引入模型,改善了交易策略的表现。同时,对交易策略在上
学位
目的 分析维持性血液透析(maintenance hemodialysis,MHD)患者透析中血糖变化规律、低血糖发生情况及其相关影响因素,并探讨含糖透析液(glucose-containing dialysate,GCD)对透析中低血糖的影响。方法 纳入2021年12月~2022年12月于吉林大学第二医院血液净化中心MHD的患者,常规使用无糖透析液(glucose-free dialysate,
期刊
随着资本市场深化改革、金融业对外开放进一步扩大、券商“马太效应”竞争加剧,在新的业态格局下找到自身定位,培育竞争优势,实行差异化经营策略是每家国内券商的必修功课。战略规划有助于券商体系化厘清发展路径,但传统战略研究方法及当前实际工作中的应用主要依靠研究人员的主观理解,缺少统一、可标准化的研究方式,同时研究对象多以个体券商或个体券商的单一业务为主,缺少全景统览性依据,致使在研究结果层面很难形成公认的
学位
目的 分析广西壮族聚居区宫颈癌及癌前病变患者人乳头瘤病毒(HPV)感染情况,为制定该地区宫颈癌筛查及预防策略提供理论依据。方法 收集经病理明确诊断为宫颈上皮内瘤变和宫颈癌的患者333例,采用导流杂交基因芯片技术对21种HPV型别进行分型检测。结果 333例患者中HPV总检出率为97.60%;LSIL组、HSIL组和宫颈癌组的检出率分别为98.89%、 98.60%和95.00%。总病例检出前五位的
期刊
随着信息技术的不断发展以及数据量的爆发增长,人们开始从海量数据中挖掘、提取有用的信息,图像作为重要的数据资源之一,在检索、检测等方面发挥出其特有的价值。如今,图像检索技术已经在很多领域中得到应用,比如在网上购物时可以上传自己想要购买的商品图片,通过搜索功能自动获得在外观、功能、品牌、类别上相似的商品。在视频的版权保护角度上,可以利用相似的图片检索去掉网站中侵权的盗版视频,保护出版方的合法权益。当前
学位