基于ELM的不确定图分类算法研究与实现

来源 :东北大学 | 被引量 : 2次 | 上传用户:dengzk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物信息学、化学情报学、Web分析等应用的广泛普及,图作为一种通用的数据结构,在复杂结构建模方面的重要性日益显现。与确定图相比,不确定图能够表达更加丰富的语义且能更好地表示数据本身固有的不确定性。具体而言,不确定性是指边或顶点以一定的概率存在。近年来伴随着对大量结构化数据分析需求的增长,图的分类处理作为数据挖掘的重要组成部分,已成为数据库和数据挖掘领域中的研究热点之一。由于不确定性的存在,已有的分类算法不能直接应用于不确定图数据的分类问题。基于此,围绕如何解决不确定图数据的分类问题,本文提出了一种基于ELM (Extreme Learning Machine)的不确定图分类算法,主要研究内容如下:首先,在系统介绍图数据挖掘的特点、意义及应用背景的基础上,给出了相关定义,并且对经典的频繁子图挖掘算法gSpan和高效的机器学习算法ELM进行了全面的分析、归纳和总结,为下一步的研究奠定了基础。其次,针对gSpan算法只能处理确定图数据及存储结构不能满足大规模图集的问题,提出了一种改进的gSpan算法。通过挖掘子图s在不确定图集D中每个图Gi中的所有内嵌图,将每个图中关于s的内嵌图组织成一颗搜索树,进而计算s在D中的支持度。用三层存储结构代替原来算法中的邻接表的存储结构,在每次扩展频繁子图的时候不必将整个图集都调入内存。再次,将改进的gSpan算法挖掘的频繁子图作为特征的候选集,为了选取部分非冗余并且有辨别力的频繁子图小集合作为分类特征,本文提出了一种特征提取方法。即通过频繁子图的Apriori性质以及给出的Score打分函数,进行了分类特征的提取。并且通过实验验证了改进的gSpan算法以及特征提取方法的有效性。最后,提出了一种基于ELM的不确定图分类算法。通过分析支持度和分类器预测能力之间的关系,给出了最小支持度阈值的设置策略。利用ELM算法来训练分类器,并且通过实验对分类器的性能进行了验证。
其他文献
本文的主要内容就是纸币清分机软件系统的研究与实现,包括清分程序与控制程序两个主要部分.由于纸币清分机本身对于速度有较高的要求,文中在很多方面都采用了特殊的处理方法
显式并行语言和自动并行化编译是高性能计算平台上并行软件开发的主要途径。无论哪种程序设计模式,编译器的一个重要工作就是充分发掘和优化程序中的并行性。并行语言的优化
本文首先将相对熵作为相似性度量标准引入到基因芯片数据的聚类分析中,提出基于相对熵的K-均值聚类算法,算法采用最大-最小规范化和区间离散化对原始数据进行预处理,并将该算
本文开展了测井曲线自动识别与提取的研究工作,根据不同测井解释成果图的特点,提出以下方法:根据计算机清绘图的背景网格与曲线频繁交叉、灰度相近,网格尺寸不固定等
本文在调研典型企业的供应商关系管理技术现状以后,深入研究了面向供应商全生命周期的准入管理模型。系统的阐述了供应链管理的基本概念和理论,强调了与战略性供应商建
本文针对现有的远程医疗系统在移动性以及通用性上的缺点,提出了基于移动平台的生命信号监测系统的系统模型,利用基于Windows Mobile的移动设备较为强大的计算、存储和网络
网格操作系统是网格应用开发、运行和维护所依赖的环境和平台。本文研究了基于EVP资源空间模型构建的织女星网格操作系统(VEGA GOS)的授权和访问控制机制的相关问题。EVP资源
电子政务是借助信息技术的政务活动,其飞速发展,是社会信息化的重要标志,因此快速、高效的开发易维护的电子政务系统显得尤为重要。同时由于电子政务生存的基础——网络自身
随着云计算技术的发展,云存储技术也逐渐被广泛使用了。很多运用云存储技术的网盘进入到人们的生活中。现在已经有了一些基于云存储的同步系统,比如百度云、金山快盘、360云盘
随着电子计算机和网络技术的快速发展,极大地提高了现代社会的发展速度,但同时也带来了大量的计算机犯罪,并呈现出愈演愈烈的趋势。计算机取证技术已经成为还原计算机犯罪的重要