基于增量高斯混合模型的在线密度估计研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:daTyrant
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
密度估计是统计推断中的经典问题,一组数据背后的概率密度函数反映了其在特征空间上的分布情况,能够为数据驱动的决策过程提供非常重要的信息。在聚类、异常检测以及可视化领域中,密度估计算法有着非常广泛的应用。随着移动互联网、社交媒体等新兴模式的快速发展,流式大数据正普遍成为数据挖掘与分析的对象,其实时性、易失性、突发性、无序性、无限性的特点使得在线密度估计成为了必要。传统的密度估计算法,无论是参数式还是非参数式方法都无法在这样的情形下直接应用。参数式的算法适合进行在线化任务,但是表达能力有限;非参数式算法具有更加广泛的表达能力,但是往往时间和空间复杂度较高,而且需要保存所有历史数据,无法处理大规模的数据流。因此,需要能够把两者的优点结合起来的新方法以达到在线密度估计的需求。本文从自组织增量学习神经网络(SOINN)的增量学习框架出发,通过分析其学习算法,指出其与高斯混合模型之间的密切关系。基于此观察提出了一种对流式大数据进行在线密度估计的增量高斯混合模型LAIM,同现有的在线式和离线式密度估计算法分别进行了对比实验和分析讨论。本文的主要工作有以下三点:1.对密度估计这一问题和常用的算法进行了分类总结,并梳理了参数式方法和非参数式方法各自的优缺点;2.介绍了自组织增量学习神经网络(SOINN),通过对其学习算法的分析指出其本质上是一种高斯混合模型的增量化实现,这使得它能够进行在线密度估计,而且以较低的模型复杂度取得非参数式方法的灵活性;3.为学习局部复杂的密度分布的同时加速算法收敛的速度,在SOINN增量学习的结构上提出了基于局部参数更新策略的在线密度估计算法LAIM(Local Adaptive and Inremental gaussian Mixture),该模型通过将每次迭代的过程限制在一个局部区域,能够增量式地学习数据流中变化的密度分布,同时不破坏先前已经学习到的有效信息。实验表明,无论是在人造数据还是真实数据集上,LAIM都比同类型的在线密度估计算法取得了更好的密度估计结果,在许多情况下能够取得与复杂度更高的批处理算法相当的结果。
其他文献
Internet正在全世界日益普及,通过Internet访问信息和获取服务已越来越成为现代应用程序必须具备的功能。本文研究工作的目标在于建立新一代的对象Web服务体系结构,以实现Web技
该文从我校研究生教育信息化发展状况出发,结合国内研究生教育的形势和本校研究教育管理水平等情况,以及三校合并、研究生院成立等客观因素,指出开发研究生网上综合管理信息
该文研究基于分布式调度体系结构的支持复杂应用的工作流故障检测和恢复处理机制.首先分析并定义了在分布式调度体系结构中存在的各种故障,基于此提出包括前面向工作流流程和
网络接入已经成为人们日常工作、生活中不可或缺的一个部分。家庭局域网作为用户网络接入最主要的方式,承担着连接用户物理世界与信息世界的重要枢纽作用。近年来移动计算与
智能外设(IP)作为智能网(IN)的功能节点向用户提供多种专用资源.随着智能网业务量的不断增长,研究和探索IP组网方案成为当前智能网规划的一个重要课题.基于增强型的专用资源
随着网络技术和数据库技术的发展,传统的基于单层或两层结构的管理信息系统逐渐暴露出许多缺陷,主要表现在客户端过于庞大,运行效率不高,难于扩展于WEB等等.为了解决这些方面
该文叙述了WebServer在Internet信息发布中的重要作用,对目前较流行招RAD技术,CGI技术以及ASP技术等几种信息发布方法做了详细比较,分析,阐述了ASP技术在Web信息发布中主要优
目前国内许多客服中心有明显的行业局限性,难以扩充到其它行业中。解决这个问题的一种方法是吸纳虚拟客服中心思想,但是这要求有一个具有良好伸缩性的支撑软件系统,为此本文提出
随着国际互联网的普及和应用领域的不断扩展,基于互联网的各种应用需求不断地被提了出来。电子邮票系统就是基于国际互连网的一种新型邮资支付系统,它使用电子邮票——一个具有
该文系统地说明了ERP的发展过程以及应用现状,并对其工作原理、工作流程、组成部分以及设计思想进行了论述.详细地介绍了广西平果铝业公司ERP的应用背景,以及在PGL—CIMS环境