基于拉依达准则的ATM机异常检测

来源 :科学导报·学术 | 被引量 : 0次 | 上传用户:a547189644
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘  要:为了有效检测ATM机数据出现的问题,本文通过对ATM机交易量、交易成功率和交易响应时间进行分析处理,提取特征参数,建立成功率和响应时间基于欧式距离的异常检测模型。采用k-means聚类分析,确定异常的具体情况,建立多级化报警系统。此外,运用拉依达准则,针对聚类分析后判定的正常数据再划分,使异常检测模型更加精确。
  关键词:k-means聚类分析;拉依达准则;异常检测;单样本k-s检验
  引言
  随着近几年来ATM机的迅速发展,带来了经济前所未有的腾飞。ATM机人力资源投入少,使用频率高以及24小时全天营业的优点。随之而来的,是ATM机数据大,分析困难的问题。当ATM机出现故障或者卡顿时,用户们往往抱怨,甚至波及到后面排队等候的人群。所以帮助银行及时发现出现异常的营业点,提高运行效率是很有必要的。
  为了检测ATM机运行异常情况,我们针对成功率和响应时间建立一套异常检测方案,在基于现实生活中ATM机异常点稀疏,正常点集中的假设下,对成功率和响应时间采用K-means聚类分析,根据数据点的分布范围来均匀生成K个质心。一轮循环后,监测点被划分为正常点、疑似异常点以及异常点。对于正常点,我们使用拉依达准则,剔除正常点包含的少量异常点,将得到的异常点汇总,分为三个等级报警。
  1.数据分析处理
  (1)数据的预处理
  为了使模型更加具有说服力,我们采用了2017年深圳杯B题1-4月的数据用作数据的分析,當然,由于数据存在少量的不完整,我们对缺失的时间段的数据补 0 处理。
  (2)数据分析
  每日成功率随时间变化分布图---以一月为例
  基于以上的图形,可得结论有:①每日成功率在凌晨六点之前波动最大,之后的时间比较平稳。②每日里响应时间的波动非常大,但由响应时间的频数分布图可知:正常的响应时间应该约在55-130 范围内。
  此外,我们对数据还进行了相关分析。发现一天之中的交易时刻与交易量存在正相关性、响应时间和成功率呈负相关性
  2.异常检测模型的建立
  (1)成功率-响应时间异常模型建立
  根据上文所描述的数据特征,我们截取两个具有明显差别的时间段分别对数据进行探索。这两个时间段分别是晚上十点到第二天清晨六点,及中午十点到下午三点。以下分析以第二段时间为例。
  我们先对数据进行K-means聚类分析,将数据划分为三类。我们假定周围数据点最多的聚类质心为正常点聚类质心,数据量最少的为异常点聚类质心,介于其中的为疑似异常点聚类质心。聚类分析结果如下:
  由上图,我们发现,① 聚类质心2附近包含26841条案例,且成功率最高、相应时间最低,我们称其为正常点。② 对于聚类质心1,其成功率低,响应时间高,可以确认是故障点情况。③ 聚类质心3在这两者之间,我们判断为疑似异常点。因此,我们得到了粗略分类的三种情况,接下来我们运用拉依达准则确定正常点的界限。
  由于对聚类质心2附近点的分布(即成功率和响应时间)分别用单样本k-s检验的p值为0,因此,我们对数据正态化转换,采用Blom比例估算公式计算正态得分,公式如下:
  (r-3/8)/(w+1/4)                          (1)
  其中w 是个案权重的总和,r 是等级。
  运用个案排秩后得到的数据进行单样本k-s检验,发现处理得到的数据是服从正态分布的,且保留五位小数后平均值为0,标准差为1。因此,我们对处理后的数据当作标准正态分布处理。
  得到正态化转换数据后,我们用拉依达准则对数据划分,拉依达准则是指先假设一组检测数据只含有随机误差,对其进行计算处理得到标准偏差,按一定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,含有该误差的数据应予以剔除。这种判别处理原理及方法仅局限于对正态或近似正态分布的样本数据处理。
  (2)实验验证
  为检验本研究的提出的方法的准确性和实践性,选取聚类处理后质心2附近的点作为拉依达准则检测有效数据。对于成功率,我们取置信区间为  ,对于实际生活中,我们希望成功率越大越好,因此只选取下限,不考虑上限。对于响应时间,同上选取置信区间为 ,不考虑其下限,只考虑上限。
  运用SPSS软件对数据筛选个案之后,我们得到了72个异常值。其中成功率异常有36个,响应时间异常共有36个。由于篇幅的限制,以下部分检测数据为例
  我们发现,交易成功率异常检测值基本在93%以下,响应时间在350ms以上判定为异常。而对于聚类质心1和聚类质心3类附近的点,这些点的响应时间异常程度比通过拉依达准则筛选出来的更大,但是成功率高于93%。
  另外,为了更精确的发现异常值,定义由拉依达准则判定的成功率异常为蓝色预警。我们对拉依达准则分析出来的响应时间异常点和聚类质心1和3处的点合并分析,并区分红色预警和橙色预警。观察该时间段(上午十点至下午三点)异常出现的次数,判定在五个小时内出现同种类型的异常来决断。由以上分析,我们有信心确定,该方法具有较好的筛选能力:
  设定1类的权值为 ,二类(拉依达准则判定后)的权值为 ,三类的权值为 ,阈值为 。 小时内,发生一类的次数为 ,发生二类异常的次数为  ,发生三类异常的次数为 ,则满足下述条件的被判定为红色预警点:
  这里的参数我们无法得知,需要下一步专家确定,这里我们给出一种我们假定的参数来测试效果。设 ;间隔 分别为五个小时内发生1类、2类、3类异常的次数。即当满足以下条件时,五个小时内的异常点被判定为红色预警点。
  在我们的参数设定情况下,374处交易量异常点中有153处为红色预警,221处为橙色预警。
  3.结论
  本文对大量数据进行聚类分析和拉依达准则判定提取了特征参数,深入探讨了ATM 指标中响应时间和成功率之间的关联性。本文模型对大数据分析有着独特的优点,并且对初步分析的数据设定权重比,提升模型的全面性和可信度,将模型出现误差的可能性降到最低。本文所提方法对于庞大的数据,不能进行实时分析,只是按类进行分类的分析,从而得到分析结果的过程中存在一定缺陷,但这并不影响对异常数据的判断结果和实际的运用。
  参考文献
  [1]  董天文,叶勇超,俞周瑜,等.ATM交易状态特征分析与异常检测[J].数学建模及其应用,2017,6(3):42- 54.
  [2]  张敏,袁辉;拉依达(PauTa)准则与异常值剔除[J];郑州工业大学学报;1997年01期:85-89
  [3]  柴洪峰等.基于数据挖掘的异常交易检测方法[M]计算机应用及软件.2013.1
  [4]  Chan P K,Fan W,Prodromidis A L,et al. Distributed Data Mining in Credit Card Fraud Detection[J]. IEEE Intelligent Systems & Their Applications,1999,14(6):67-74..
  [5]  Ben-Haim Y,Tom-Tov E. A Streaming Parallel Decision Tree Algorithm.[J]. Journal of Machine Learning Research,2008,11(11):849-872.
其他文献
摘 要:由于地震、旱涝灾害、交通事故等天灾人祸和恶性犯罪、恐怖袭击等人为灾害随时可能发生,为了应对这些危害需要建设一个及时搞笑的应急指挥信息系统,以便实现及时的救援指挥,提高处理突发事件的能力。建立应急指挥信息系统可以及时准确地对突发事件或灾害状况进行及时分析判断,以便协调政府和其他救援机构及时进行指挥调度,开展抢险救援工作。因此,本文就现今应急指挥信息系统的建设展开研究,希望通过对其发展现状和系
期刊
摘 要:我国目前已进入后疫情时代,复工复产复学等工作势在必行。针对高校学生特点,本文探讨后疫情时代高校学生返校学习期间学生管理工作应采取的措施和手段,为高校学生管理工作建言献策,以维持高校正常的学习和生活秩序。  关键词:后疫情时代;高校学生管理  2020年注定是不平凡的一年。自2020年1月以来,新冠病毒肆虐全球。在全国人民的共同努力下,我国病毒控制取得了显著的成效,各行各业也开始逐渐复工复产
期刊
摘 要:随着计算机领域不断发展,各高校计算机实验室在日常教学中发挥着越来越大的作用。文章利用SWOT分析法,分析疫情影响下高校计算机实验室的内外部环境,探究未来发展的可行性路径。  关键词:高校;SWOT分析法;计算机;管理  在过去几十年中计算机技术急速發展,使得计算机已成为普通大众日常生活中的必备品。作为培养专业人才的高等院校也越来越重视计算机实验室的建设,特别是开始于2020年初的新冠肺炎激
期刊
摘 要:机械零件的破坏一般总是从表面层开始的,因此零件的表面质量是至关重要的。本文分析了加工表面质量对零件使用性能的影响以及影响表面粗糙度的工艺因素。  关键词:金属;加工;表面质量  加工表面质量包括加工表面的几何形状误差、表面层金属的力学物理与化学性能两个方面的内容。由于机械加工中力因素和热因素的综合作用,使加工表面层金属的力学物理性能和化学性能将发生一定的变化。  一、表面质量对零件使用性能
期刊
摘 要:铁在海洋环境中一直以微量元素的形式出现,并且有着调节海洋初级生产力的巨大作用。虽然以前没有过于先进的技术去进行这方面的研究,但是在当下这个科技发展蓬勃的年代,人们可以对所有未知的领域进行探索,去掌握更多的知识内容。本篇文章会对铁在海洋中存在的形式做进一步分析,阐明海洋中铁的微生物作用及生态效应。  关键词:海洋环境;铁的来源;微生物作用  引言:  铁是地球上生物生长的必需元素之一,在海洋
期刊
摘 要:随着科学技术的进步与发展,我国的教育模式和教学理念也在逐渐发生改变。信息技术的飞速普及渗透到人们生活的方方面面,改变了传统的教育方法,极大的提高了教师的教学效率和教学质量以及学生的学习效率,有助于学生全面发展。然而,由于我国经济发展不均衡,部分农村学校的中老年教师并没有完全将信息技术应用在日常的教学中,对信息技术的掌握也存在着不足。因此,本文就将谈一谈提高农村学校中老年教师信息技术应用能力
期刊
摘 要:电力现在已经成为了人们生活、生产中不可缺少的一种能源,而且随着经济的不断发展人们对电力的需求量也在不断增加。电力能够对人们的生活质量和企业的发展状况起到直接影响,因此,供电企业应抓住发展机遇,以积极的心态面对用电量需求不断增加的挑战,努力提升配网运行的安全性,对配网的供电方案进行优化,最终促使电力企业的供电可靠性达到提升。  关键词:供电企业;配网;电力  引言  配网线路是电力系统的重要
期刊
摘 要:在处理突发事件时,进行正确的应急指挥决策是应急管理的关键。在复杂多变的环境下如何抓住影响事件情况的重要因素,借由因素找到处理方法,从而做出系统性的准确决策是当前应急管理亟待解决的关键问题之一。本文通过研究国内外文献,在此基础上对应急指挥的现状进行深入探讨,从当前应急管理的问题中归纳出一些经验,对于深刻的认识应急指挥决策,充分的发挥其效用具有十分重要的意义。  关键词:应急指挥决策;突发事件
期刊
摘 要:2020年我国风电行业整体回暖。但是,在我国政策不完善和建设输电通道与风电场难度大的条件下,风电异地和就地消纳能力受到强大阻力。本文通过总结我国弃风限电的原因,结合国外的成功经验,提出可行性建设性计划,根据全球发展的趋势预测未来风电市场的前景。  关键词:弃风限电;风电消纳;清洁能源;互联网  一、引言  风能是一种可持续的能量来源,因为它不仅可再生,而且分布广泛、资源丰富。此外,它还有助
期刊
摘 要:在SMT中,选择性波峰焊技术是一种最近兴起并逐渐发展起来的技术,在复杂PCB中有着十分广泛的应用。选择性波峰焊技术,不仅可以单独设置焊点参数,需要的助焊剂喷涂量也较少,还不会对PCB产生严重的热冲击,就连其最终呈现出来的焊接也具有很强的可靠性。加强选择性波峰焊技术的推广与应用,使得高密度多样性混装PCB板的组装要求得到了最大限度的满足。基于此,本文重点针对选择性波峰焊技术在SMT中的应用进
期刊