基于Dirichlet过程混合模型和持续同调的异常点检测方法研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:a98674591
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
异常检测的历史较长,可追溯至1777年的Bernouli评论,在经济、社会、网络等方面都广泛应用,并成为数据挖掘的一个重要领域。在金融领域,异常点并不一定是要忽略、删除的数据,恰恰相反,可能是种新的模式。  现有的算法整体上可以分为三类:无监督侦测、有监督侦测和半监督的侦测方法。分类的标准主要是数据集有无标签。本文首先对异常检测的相关研究进行综述,接着对现有异常检测的算法进行分类,通过模拟数据进行实验,通过可视化工具来展示各个方法对数据识别的准确率,并对各个方法的准确率、误判率等进行排序,并借助PR图,直观对比。  针对数据集可能存在多个模式,本文参考Song(2009)方法提出了一种新的组合方法,应用Fergusont(1973)提出的Dirichlet过程混合模型确定每个模式,再对每个模式下的数据应用Platt(2003)提出的Ocsvm挖掘异常点,主要通过Neal(2000)的方法实现Dirichlet过程。同时,将Carlsson(2005)提出的持续同调应用到异常点挖掘,该方法能够识别数据集本身存在的拓扑特征,并可以忽略数据的模式影响。对Carlsson(2005)关于持续同调的可视化描述barcode图刻画出两种距离,并在提出的距离下对数据集进行异常点挖掘。使用Adams(2014)开发的Javaplex实现持续同调。通过与传统方法进行ROC图对比,提出的两种方法在不同的数据模式下效果表现稳定,克服了对数据模式的依赖。
其他文献
9月19日,全球领先的食品加工和包装解决方案系统供应商利乐公司首次发布了《利乐果汁指数》(以下简称《报告》)。报告称,全球范围内100%纯果汁市场正呈现出前所未有的活力,并
在农业现代化的大目标下,怎样转变农业发展理念,实现经济效益和资源环境效益的共赢?近期,农业部、国家发展改革委、科技部、财政部、国土资源部、环境保护部、水利部、国家林业局
设G为有限p群。 若G的指数为#的子群全交换且存在一个指数为子群不交换,则称G为At群。本文给出了亚循环A1群的所有特征子群,也给出了非亚循环A1群的所有特征极大子群以及A2群的
进入2016年后,生鲜电商可谓是冰火两重天。一边是青年菜君崩盘,爱鲜蜂大规模裁员,美味七七、果食帮关门……哀鸿遍野的背后人们似乎看到了资本渐行渐远的背影。这本就是个需
目的:研究不同品种类型菘蓝根中表告依春的分布,为筛选优质菘蓝品种提供科学依据。方法:HPLC测定白菜叶型、甘蓝叶型、芥菜叶型与四倍体4个品种类型菘蓝主根与侧根中表告依春
本文主要利用最大值原理与动态规划原理研究了金融市场中满足递归效用函数的带终端限制的现金流估值问题。首先假设市场只有风险型和无风险型两种证券可供选择、委托人的效用函数满足双曲绝对风险厌恶函数(HARA),利用拉格朗日乘子法把该问题转化成一个求解FBSDE的随机投资组合优化问题。然后,分别用最大值原理和动态规划原理求解,得到最优策略,同时,将两种方法计算出的最优策略进行比较,得到了一致的结果。随后,证
针对某钼矿选矿回收率偏低的问题,通过矿石性质研究和选矿工艺试验,确定采用柴油作捕收剂,提高磨矿细度,抛弃精扫尾矿,使得选钼回收率提高了1.9%。 Aiming at the problem o
本文通过对荣华二采区10
回归分析是数理统计学的重要内容之一。由于它的应用非常广泛,所以关于它的理论与方法研究一直受到人们的关注。我们针对非线性回归分析方法进行了讨论。首先介绍常用的一些
分段映射系统具有非常复杂的动力学行为.边界碰撞分岔和混沌是其复杂动力学行为中比较典型的现象.一直以来关于分段映射系统的边界碰撞分岔和混沌控制研究受到众多学者的广泛