基于闭合模式的数据挖掘技术研究

来源 :北京交通大学 | 被引量 : 1次 | 上传用户:tanleilei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据流是一个有时间顺序的,连续的,无限的事务(或实例,记录)序列.数据流与传统的静态数据或数据库相比具有非常不同的特性,如动态、无限、有序、非重复性、高速和变化.在真实的数据流环境中,一些数据源分布是随着时间改变的,即具有概念漂移特征,称此类数据流为可变数据流或概念漂移数据流.因此处理数据流的方法需要自动调整以适应概念变化.为了得到无损压缩的且满足用户不同需求的有趣模式结果集合,研究数据流中满足约束的、闭合的频繁模式挖掘算法;为了提高数据流分类效率,研究基于频繁模式的分类算法;研究模式挖掘和分类过程中概念漂移问题的处理方法.主要的工作包括:(1)在数据流中挖掘频繁模式面临的主要挑战是数据的无限性使得模式不断的产生,因此数量巨大.尤其是支持度阈值低时可能导致输出模式的数量爆炸.由于概念漂移特性,在一些数据流应用中通常认为最新的数据比历史数据重要.为此,研究使用闭合算子方法提高闭合模式挖掘的效率.研究并设计了一种均值衰减因子提高模式结果集合的准确性和完整性.研究并设计了一种基于滑动窗口模型和时间衰减模型的闭合频繁模式挖掘算法TDMCS.通过实验分析,与已有同类算法相比TDMCS算法可以得到稳定的模式集合,且具有更加均衡的查全率和查准率.(2)已有的衰减因子设置方式对历史事务和最新事务权重采用相同的衰减强度,这样不能更一步的区分新旧事务的重要性.为此,研究并设计了一种基于高斯函数的衰减方式.与已有的衰减方式相比,它对新近事务的衰减程度更低,而对历史事务的衰减程度更高.研究采用多种衰减因子设置时间衰减模型的方式.在高斯衰减因子的基础上,研究并设计了基于堆积衰减值的TDMCS+算法.对已有的常见衰减因子进行分析总结,并通过理论和实验对比分析使用高斯衰减因子的优势.(3)一些高维数据中包含大量的重复项,已有的模式挖掘算法处理此类数据会产生大量的短的、非连续的无用模式.针对此类数据的特征,研究并设计了三种支持度,包括支持度、局部支持度和全局支持度.局部支持度和全局支持度可用于挖掘在一条数据中多次出现的模式.研究并设计了算法MCCPM挖掘基于三种支持度的、连续的、闭合的模式.因此,挖掘过程中需要记录模式在每条数据中出现的位置和次数.实验分析证明与已有方式相比,MCCPM算法可以减少内存消耗,可以得到更加有趣的模式结果集合.通过对模式结果进行分析表明,这些有趣模式可以用于序列的对比,或者用于对未知序列的分类.(4)无限的数据流中可能存在着大量无用的信息或者噪声,而模式挖掘可以去除数据中的无用信息且不受噪声的影响.因此,挖掘有趣的、频繁的和有区分力的模式,可以用于有效的分类.研究并设计了一种两层结构的频繁模式决策树分类算法PatHT.第一层设计算法CCFPM挖掘具有约束的闭合频繁模式集合,该算法使用可变滑动窗口,当检测到概念漂移时进行窗口的收缩,同时对历史模式进行删除.接着对模式结果抽样产生集合CFTSet;第二层设计算法HTreeGrow使用CFTSet生成分类模型.PatHT算法为不同特征的数据流,设计不同的模式使用策略.算法中采用概念漂移检测器跟踪概念变化,从而自适应的调整分类模型.通过对真实和虚拟数据流的实验分析,与已有数据流分类算法相比PatHT算法可以提高分类正确率或明显降低时空消耗。
其他文献
云计算是一种基于因特网的新一代计算模型,不仅可提供海量计算和数据资源访问,也是一种可根据用户需求配置的按需访问模型。然而,云计算的开放性和动态可配置性也使得云计算
从这一刻起让我铭记住你……  华灯初上的时候,一只猫在台灯的光亮下伏案写一封信,一封给小9的信,散文的样式,带着抒情。  无疑我就是那只猫。一直在找星期八,一个空想的日子,然后遇见《星期9》,我们非首次相逢,却是首次接触。文字总是承载着太多的梦想,太多的情感,当有一天,能够明白所有的情感都源于爱,那么,就可以深深地铭记着点点滴滴。有时候,文字里所涉及的温暖,有直抵心底的力量。90后,我们这一代人几
报道1例临床初诊考虑为转移癌,经组织病理检查、真菌培养及分子生物学检测后明确诊断为红色毛癣菌肉芽肿的病例。患者女,65岁,右前臂红斑、丘疹、结节3个月余,查体:右前臂多
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
会议
观察天麻钩藤饮对脑出血大鼠TLR4、NF-κB、IL-1β表达的影响,探讨其保护神经功能的可能机制。60只Wistar雄性大鼠随机分为假手术、模型组和天麻钩藤饮组,每组按造模后1、3、
舆情是对舆论情况的综合概括,因而舆情比舆论更具综合性与概括性。舆论是公众对事件不同看法的综合表达,而舆情则在舆论的基础上进行更深层次的整合与概括。在自媒体时代,信
本文阐述了利用“优慕课”教学平台对高职《单片机应用技术》开展混合式教学的设计。以任务“篮球记分牌的设计”为例,探究混合式教学的教学设计过程和教学效果,为其他课程开
立德树人是教育的根本任务。新形势下高职院校学生思想政治工作应贯彻落实立德树人理念,面向社会输送德、智、体、美全方位发展的社会主义建设者与接班人。
论述了语体的划分类型及其功能,并且从语用学角度分析了会话中语体转换的现象,阐述了语体转换的功能和原因。