【摘 要】
:
随着信息技术的高速发展,数据的规模呈现指数级别增长,如何从这些数据中发现潜在的、价值高的信息是目前数据挖掘领域面临的主要挑战。伴随着数据流的出现,针对数据流的挖掘
论文部分内容阅读
随着信息技术的高速发展,数据的规模呈现指数级别增长,如何从这些数据中发现潜在的、价值高的信息是目前数据挖掘领域面临的主要挑战。伴随着数据流的出现,针对数据流的挖掘成为了数据挖掘领域中的一个研究热点,其中高效用模式挖掘是数据流的一个主要研究方向。当前数据流上的高效用模式挖掘算法总体上都是基于全局头表和效用树这两种数据结构展开挖掘工作的,为了使数据流上的高效用模式挖掘算法可以快速有效地执行并且适应更多的应用场景,本文对数据流上的高效用模式挖掘算法做了深入的研究,主要工作如下:(1)已有的数据流上的高效用模式挖掘算法建立的全局头表中包含无关冗余数据项,并且在挖掘过程中对低效用数据项做了无用的处理,增加了额外的时间开销。为了提高算法的挖掘效率,本文提出了数据流上基于全局修订头表和低效用模式预剪枝策略的高效用模式挖掘算法HUMGRT。该算法通过对全局头表的修订,删除无关冗余数据项,同时利用预剪枝策略忽略了低效用数据项,从而提高了算法的挖掘效率。在不同数据集上与多个主流算法进行对比实验,结果表明,本文提出的HUMGRT算法有更好的时间效率。(2)在长事务场景下,高效用模式挖掘算法运行效率不高,且容易造成内存溢出。本文给出了长路径事务和数据项最大递归挖掘次数的定义,并且提出了数据项挖掘次数既定策略ESMI。该策略在不改变效用树结构的情况下,通过控制长路径事务中数据项的递归挖掘次数,解决了算法不能较好地适用长事务场景的问题。实验表明,本文提出的数据项挖掘次数既定策略ESMI可以有效地提高算法的时空效率并拓展算法的适用范围。(3)现有高效用模式挖掘算法均未考虑出现新增数据项的场景,新增数据项的存在会使外部效用值出现缺失,导致算法无法继续执行挖掘工作。为了解决这个问题,本文提出了一种向前预判补全模型RPC-Model。该模型利用已读入数据项的相关效用信息对新增数据项缺少的必要外部效用值进行补全,使算法能够正常运行,并通过相关的对比实验验证了RPC-Model模型的可行性和准确性。
其他文献
阜东斜坡油气勘探始于20世纪50年代,近些年随着勘探力度的增大,石炭系、二叠系梧桐沟组和三叠系韭菜园子组先后突破,油气显示较好。随着勘探进一步推进,该地区沉积体系及储层
随着互联网新业态的高速发展,越来越多的行业对于网络服务的稳定性提出了更高的要求。北京交通大学研发的多元化智融网络组件,利用智融标识网络架构思想将多种链路资源进行融合,实现了高稳定性、高质量的网络服务。然而,由于缺少必要的管理平台,多元化智融网络组件在使用过程中暴露出配置方式复杂,难以动态调整;型号众多,用户权限管理混乱;无法实时监测各个组件状态等问题。针对上述问题,本文在调查研究现有设备管理方式的
二氧化碳(CO2)是一种温室气体,但它也是重要的C1资源,具有低价、无毒等特点,以其为原料可以合成诸多有价值的化合物。在众多的转化利用方法中,CO2和环氧化合物反应生成环状碳酸
陶瓷类材料具有硬度高、耐高温、抗腐蚀等优良性能,在机械、航空航天、医疗等领域均有应用,对其需求也日益增强,促使陶瓷材料的加工朝着高质量和高效率的方向发展。然而,作为
在中国经济发展方式转型的关键时期,探求创新的空间结构及影响因素,有助于加强对我国技术创新发展规律的理解,促进创新政策的完善。为了解决以往研究中存在的可塑性面积单元
信任是当今心理学与社会学研究的热点问题,是各种组织环境中必不可少的协调机制,很多研究长期以来一直强调信任的积极影响。但是,如果没有把信任用对地方,信任也会功能失调,产生消极影响。因此,精准地将信任运用于各种社会组织环境对完成一项高质量的工作就显得尤为重要。但是,信任准确度的情境预测因素的探究非常有限。虽然许多研究在探究人际信任现象时主要关注特质水平预测因子,例如个体的广义信任倾向或受害者敏感性等,
通信工程和计算机技术的迅速发展将人类社会带入到了信息时代,数据库中存储的数据量也急剧增大,如何在海量数据中分析和获取有价值的知识成为人们日益关注的问题。文本聚类分析是信息数据挖掘的一个重要研究方向,可以直观地反映数据间的分布特点,更好地发现数据集中内在的类别特性。K-Means算法作为聚类分析算法中最为普遍应用的算法之一,尽管时间复杂度较低且易于实现,但在处理具有高维性和稀疏性的数据时,容易出现局
作为一种重要的有机化工中间体,二苯甲烷二异氰酸酯(MDI)广泛应用在聚氨酯(PU)、涂料、胶粘剂等行业。目前,MDI主要通过光气法生产。其原料光气剧毒且副产物HCl腐蚀性较强。
等离子体医学是等离子体与临床医学等学科相融合的新兴交叉领域,其中气相区活性氧和活性氮物种(Reactive Oxygen Species and Reactive Nitrogen Species,RONS)的原位定量诊断
在如今高速发展的科技时代中,机械臂在制造业、农业、医疗业等都得到了广泛的应用,与之相关的机械臂控制技术研究也自然成为了学者们着重关注的方向。为了完成任务,机械臂通常需要在给定的时间内精准地按照预定的轨迹运动,也因此轨迹跟踪问题成为了机械臂控制技术研究中关键的一点。外部干扰作为影响机械臂轨迹跟踪性能的主要因素,当其可以被检测到时,前馈方法可以很好地减弱干扰带来的影响。然而,外界干扰通常难以测量,所以