金融大数据应用研究—商户类别码套用检测算法研究

来源 :电子科技大学 | 被引量 : 3次 | 上传用户:xwy_pk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在这样一个信息技术迅速发展的大数据时代,传统行业面临着巨大挑战。各行业在大数据浪潮的冲击下开始尝试改变传统经营模式时,大型金融机构站在了信息价值链的最好位置。通过为小型金融机构和商家客户提供服务,他们能够直接获得大量的交易信息和顾客的消费信息。他们的商业模式从单纯的处理支付行为转变为收集数据并挖掘其潜在价值。中国银联作为中国银行卡联合组织,处于我国银行卡产业的核心和枢纽地位,占据了收集数据和挖掘数据价值的黄金位置。围绕其核心数据所设立的“金融大数据应用研究”项目也随之展开。本文主要利用数据挖掘技术开展了“金融大数据应用研究——商户类别码套用检测算法研究”的工作。其中主要的研究内容分为基础研究和应用研究两部分:(1)在数据挖掘技术上展开基础创新工作,对聚类算法进行了大量的研究,并提出了新的聚类算法——“基于寻根的快速层次聚类算法”(RS算法)。该算法以贪心的策略通过迭代的搜索最近邻的方式,寻找位于数据密集区域的核心点(根节点)。与此同时,将遍历过的点连接起来,建立子树从而完成聚类。我们选择了两个经典的聚类算法进行对比实验。实验结果表明,在大部分数据集上,RS算法优于其他两个经典算法。通过复杂度分析,RS算法具有线性复杂度。(2)开展了大量“商户类别码套用检测算法研究”的工作,并提出了一套完整的商户类别码套用检测模型。在文中我们对数据集进行了大量的样本分析,并发现了商户交易数据中存在的规律性,提出了“行业模式”和商户“行为模式”的概念。我们利用行业模式与商户行为模式的差异性计算出多个基于行业间差别和基于行业内差别的参数,并将这些参数作为特征组成特征向量训练分类模型从而完成套用商户的识别。我们选择了5个分类算法在4个数据集上进行了实验。实验结果表明我们提出的商户类别码套用检测模型切实可行,在3个数据集上的准确率和召回率都达到80%以上。综上所述,本文在数据挖掘技术上进行了理论创新工作,并结合了在金融领域进行数据挖掘的应用场景提出了“商户类别码套用检测模型”。并且通过大量实验验证了文中所提出的算法和模型的有效性。本文的研究丰富了数据挖掘领域,并在金融领域欺诈检测方向上提供了有意义的参考。
其他文献
随着现代媒体技术的迅速发展.多媒体资源广泛运用到各种教学中。如何运用网络提高历史课堂的教学效率,是笔者一直思考探讨的问题。本文主要从如何利用网络资源变革学生的学习方
随着落实科学发展观,企业团队建设和领导班子建设越来越被重视起来,特别是领导班子的能力培养和锤炼已成为培养核心竞争力的核心之核心。本文正是对如何加强领导班子能力培养所
<正> 编著者:陈征主编出版者:福建教育出版社1986年2月出版 551页定价:2.55元本书根据《中共中央关于经济体制改革的决定》的基本精神,按照中国式社会主义政治经济学的一些基本原理、基本观点,编
【正】 利用资本市场,发行股票直接融资,对筹集交通建设和发展所需的资金,促进交通企业加快改革,实行股份制改造,建立现代企业制度和推动 我国交通事业的发展都起到了积极的
无论是哪个国家,哪种社会制度,都离不开文化,离不开文化生活。但是因社会制度、民族、信仰及风俗习惯的差异,使得文化生活的表现形式和内容也有着本质的区别。在中国特色的社会主
发展健康服务业,将给零售药店带来哪些机遇?商务部市场秩序司巡视员温再兴表示,商务部正着手促进零售药店升级转型。
患有精神疾病的妇女在分娩时具有特珠性,风险要明显高于健康产妇,因此在临床护理工作中要加强安全意识。本文对妊娠合并精神疾病妇女临床护理风险因素进行分析,并对我国现阶段针
歌唱艺术是人们用歌声来表达思想情感的一种艺术活动,它是人声与语言文学相结合的艺术它与发声器官、呼吸器官、共鸣和唱歌中的吐字有着密切的关系,在歌唱中要达到以情带声、声
随着49个乡镇卫生院院前急救点建成,海南省形成了覆盖全省的省、大区域、市(县)、乡镇四级医疗急救网络。
<正> 在《资本论》第一卷第二十四章结尾,马克思有一段著名的话,即“从资本主义生产方式产生的资本主义占有方式,从而资本主义的私有制,是对个人的以自己劳动为基础的私有制的第一个否定。但资本主义生产由于自然过程的必然性,造成了对自身的否