【摘 要】
:
序列模式挖掘(Sequential Pattern Mining,SPM)是在单序列或者序列数据库中发现出现次数(支持度)大于给定阈值的频繁子序列(模式)的一种数据挖掘方法。当前,序列模式挖掘作为一种数据挖掘方法被广泛应用于现代生产、生活各方面。传统序列模式挖掘算法的挖掘对象主要是序列中频繁模式全集。这一全集中存在大量的冗余模式,使得模式数量巨大,也导致算法的运行时间较长、空间开销较大。为了有效压
【基金项目】
:
国家自然科学基金项目(61976240);
论文部分内容阅读
序列模式挖掘(Sequential Pattern Mining,SPM)是在单序列或者序列数据库中发现出现次数(支持度)大于给定阈值的频繁子序列(模式)的一种数据挖掘方法。当前,序列模式挖掘作为一种数据挖掘方法被广泛应用于现代生产、生活各方面。传统序列模式挖掘算法的挖掘对象主要是序列中频繁模式全集。这一全集中存在大量的冗余模式,使得模式数量巨大,也导致算法的运行时间较长、空间开销较大。为了有效压缩模式集、提高挖掘效率,本文采用闭合序列模式挖掘策略,仅挖掘序列中满足支持度不等于其超模式的闭合模式子集。此外本文采用无重叠条件,允许模式中不同位置字符使用同一个序列字符,减少了冗余模式的生成。本文研究显示,无重叠闭合序列模式挖掘具有较高的研究和应用价值。本文主要研究内容如下:1.本文给出了无重叠闭合序列模式挖掘问题的定义,分析了现存同类算法中存在的问题,在理论证明了无重叠条件下的闭合模式挖掘算法可以得到完备解。本文采用模式拼接策略生成候选模式,提出周期间隙无重叠闭合模式挖掘算法NetNCSP(Nettree for Nonoverlapping Closed Sequential Pattern)。并在理论上证明了NetNCSP是满足Apriori性质的完备算法,并给出了算法时间复杂度、空间复杂度、Apriori性质分析。2.NetNCSP主要包括支持度计算和闭合模式判定两个步骤:支持度计算方面,基于网树结构,本文提出采用回溯策略无重叠模式支持度计算算法Back Tr,将算法复杂度从O(m*m*n*w)降到O(m*n*w),并证明Back Tr是完备性算法。闭合模式判定方面,本文提出Inherit(继承剪枝)、Predict(预测剪枝)以及Closeness Determine(闭合判定剪枝)三种策略进行闭合模式判定、剪枝,有效提高了挖掘效率。3.为验证NetNCSP的高效性,本文提出对比算法NetNCSP-bf、NetNCSP-df分别采用广度优先、深度优先策略生成候选模式;提出NetNCSP-netgap算法采用NETGAP策略进行支持度计算;提出NetNCSP-noinh、NetNCSP-nocheck算法分别在去除继承剪枝、预测剪枝和闭合判定剪枝条件下进行闭合模式挖掘;提出NetNCSP-nogap算法在无间隙约束条件下挖掘连续闭合模式。4.在DNA、病毒序列等长序列数据中的对比实验结果显示,在不同序列数据库、模式长度、支持度阈值、间隙约束等条件下,与同类算法相比,NetNCSP都具有最优的挖掘性能,同时具有良好的模式压缩性。在新型冠状病毒肺炎(COVID-19)致病病毒SARS-Co V-2序列中实验显示,SARS-Co V-2与SARS两种病毒序列具有相同模式组成,但在模式组合上有一定差异。
其他文献
函数是数学教学的重难点之一,也是每年中考的必考内容。相对于初中其他数学知识而言,函数知识体系更加复杂、更加抽象,难度也相当大。在目前的初中数学函数教学中还是存在诸多问题,如学生不能正确理解函数概念、学生函数运用意识不强、实践程度不高、不能牢固掌握重要解题方法以及学习方法不合适等,所以为了改善这种教学现状,教师需要采取有效的措施。
锂离子电池(LIBs)由于具有较高的比容量和比能量,绿色环保,循环寿命较长等优点得到了广泛的应用。镍铁氧化物具有成本低、无毒、储量丰富等优点,在LIBs中得到了广泛的研究。然而由于镍铁氧化物在循环过程中会发生严重的体积膨胀,导致电池容量快速衰减,从而限制了其在锂离子电池上的应用。针对这一问题,本文以Ni-Fe-Al合金条带为脱合金前驱体,首先制备出双网络(韧带网/纳米片网)纳米多孔NiFe2O4/
我国住房城乡建设部将钢结构的虚拟拼装技术列入了2017版建筑业的十项新技术。如何实现钢结构的虚拟拼装,3D激光扫描则是一项极具前途的实现手段。本文将虚拟拼装技术应用于钢结构工程中桥梁梁段预拼装阶段。通过研究和应用虚拟拼装技术,证实了将虚拟拼装技术应用于钢结构桥梁工程施工,为钢结构桥梁建筑提供了一种非常有价值的技术。本文中针对虚拟拼装技术的流程,以及应用的方法和思路进行了主要介绍,对于解决建筑工程施
层状MoS2是具有可调节带隙和类石墨烯层状结构的材料,是层状材料中的研究热点,在电子器件和润滑等方面有极大的应用潜力,但大面积连续的层状MoS2薄膜的制备方法和工艺尚不成熟,具有重要的研究意义。本论文通过磁控溅射结合退火的方法和两步硫化法两种方法制备了连续的层状MoS2薄膜,并研究了薄膜的制备条件和特性。通过磁控溅射结合退火的方法制备了连续多层的MoS2薄膜。首先研究了工作气压和溅射功率对MoS2
随着人们对施工安全问题重视程度的提高,实时监测系统在扣件式钢管满堂支撑架工程中有着越来越广泛的应用。为了更加合理便捷的设计满堂支撑架的监测方案和监测预警值,本文首先针对现有监测方案研究中对随机缺陷和人为过失考虑不足的问题,建立基于随机缺陷法的支撑架模型并对模型进行非线性分析,分析了支撑架的极限荷载和位移分布,对监测方案的监测点位和预警值进行了研究。然后探讨了支撑架参数化建模的方式,并对高支模进行了
当前人们不满足于传统的、效率低下的人工分类垃圾的方式,开发新型、智能型垃圾分类装置越来越成为现代垃圾分类的重要任务。本文基于图像信息识别对垃圾分类装置的机械系统、下位机控制系统以及上位机识别程序进行设计,主要内容如下:首先,分析新型垃圾分类装置的发展趋势,提出两种自动分类方案:(1)采用识别垃圾袋颜色的方式对可回收、不可回收、有害等类别的垃圾分类;(2)使用图像处理技术和深度学习技术对可回收类单个