论文部分内容阅读
近年来,不确定性数据(Uncertain Data)得到了越来越广泛的重视。在许多实际领域,例如经济、金融、电信、物流等领域的应用中,普遍存在着数据的不确定性,且不确定性数据往往扮演着关键角色。不确定数据挖掘也成为数据挖掘领域中一个非常重要的研究课题。本文对现有的不确定数据挖掘算法进行了分析研究,从频繁模式挖掘和聚类分析两个角度提出了新的算法,以提高相应不确定数据挖掘的执行效率。首先,针对基于树结构的不确定数据流频繁模式挖掘算法会存储大量的树结点信息,并且记录数据流的相关信息会导致海量信息存储这一问题,提出了基于压缩树和位向量表的不确定数据流频繁模式挖掘算法。将不确定数据流初始化为概率—位向量表,向量表中用事务来表示项目,并且存储项目发生的概率。同时定义一种压缩树,将带有不同概率的相同项目存储到同一个树结点上,将树结点中的项目及其概率对应到位向量表中并将其转化成二进制位向量,在树的每个叶子结点上连接一个数组用来存储这条路径上所有项目的组合及其期望支持度,并将叶子结点存储到列表LeafList中。算法扫描LeafList中每个项目所指叶结点连接的数组,将数组中存储的期望支持度与用户给定的最小支持度阈值进行比较得到所有的频繁项集。其次,针对基于行枚举空间挖掘算法中闭项集检测执行时间较长以及搜索空间较大的问题,提出了基于频繁模式有向无环图的频繁闭合模式挖掘算法。定义了一种频繁模式有向无环图(FPDAG)。FPDAG中每一个行号对应一个节点,每两个节点对应一个有向边,有向边存储相邻节点共有的项,有向边记录项和事务的包含关系。首先将数据集转化成位表,再根据位表构建FPDAG。模式增长过程只需要增加有向边上相同的项,通过逆向遍历FPDAG递归产生频繁闭合项集。再次,针对软件漏洞数据这种不确定数据,现有的漏洞分类的研究按漏洞的特点、弱点和缺陷等概念进行分类,这种分类方法分类标准不统一,存在分类重叠现象。针对这一问题,提出了基于虚拟网格的不确定数据聚类挖掘算法。定义了一种虚拟网格结构,该结构把单元格分为实单元格和虚单元格,只把包含数据对象的实单元格存入内存。同时,定义了概率属性值相似度,通过比较元组间非数值属性值相等的个数来衡量元组间的相似度。基于概率属性值相似度,提出二次划分算法,把元组合并到与它有最大相似度的邻居实单元格中以提高实单元格内元组的相似度。最终,提出一种基于虚拟网格的识别簇算法,通过遍历两次实单元格发现任意形状的簇。最后,针对在使用基于网格密度的方法对数据流进行聚类时,由于网格划分的随意性,可能出现属于簇的边缘数据点被划分到单独的稀疏网格,从而使得这些数据点被判断为噪声的这一问题,提出了基于空间有向图的不确定数据聚类挖掘算法。定义了一种带重心属性的空间有向图结构SDGC(Spatial Directed Graph with Core),经过在线过程对有向图顶点的维护和离线过程生成有向图并对它进行聚类后,使用顶点维护的重心信息和聚类后得到的簇边缘顶点信息,来判断簇边缘稀疏顶点中的数据点是否属于该簇,然后使用一种新颖的调整策略来调整处理边缘后的结果簇以得到最终聚类结果。通过实验结果分析表明,本文提出的不确定数据中频繁模式和聚类挖掘算法改善了传统相近算法在频繁模式挖掘效率和相似性度量的准确性,基于压缩树和位向量表的不确定数据频繁模式挖掘算法、基于频繁模式有向无环图的频繁模式挖掘算法、基于虚拟网格的不确定数据聚类挖掘算法和基于空间有向图的不确定数据聚类挖掘算法的性能都有所提升,并且保持了较好的伸缩性。