【摘 要】
:
何为数据挖掘?从字面意思理解就是对数据进行挖掘,本质的目的就是从数据库或其它相关信息库的大量数据中,挖掘出能够反映有效知识的数据的过程,是当前非常热门的一个研究领域
论文部分内容阅读
何为数据挖掘?从字面意思理解就是对数据进行挖掘,本质的目的就是从数据库或其它相关信息库的大量数据中,挖掘出能够反映有效知识的数据的过程,是当前非常热门的一个研究领域,其中序列模式的发现是其中的一个重要研究课题。自从序列模式挖掘问题被提出以后,就一直成为人们研究的重点,因为它可以被应用在很多领域。随着对序列模式算法的研究,出现了很多比较好的和相对比较成熟的算法,但是大部分算法都是面向整个数据库的序列来进行挖掘的,这样就会导致在挖掘过程中产生一些无用的或用户不感兴趣的候选序列,这在算法根据支持度进行挖掘的过程中就耗费了大量的时间和空间,如分析顾客的购买行为,就不需要将其一月份购买的产品和十二月份购买的产品放在一起进行研究比较,如何把时间限制因素融入到序列模式挖掘中成为目前序列模式挖掘研究的一个重要方向。本文简要介绍了基于约束的序列模式挖掘,并分析了相关的时间约束条件,提出了基于时间限制的快速产生候选项的方法,此方法能够快速定位序列之间的结合,避免了不必要的扫描和检验,从而加快了产生候选项的速度。序列模式挖掘在生物研究方面也具有十分重要的应用。随着医疗科技的发展,很多物种的基因序列都被测出,这就使得存储世界各地的生物序列的数据库变得越来越强大。如果能从这些海量的数据中探求出生物序列中的规律,我们就可以总结出一些物种的遗传特点,以及发现一些疾病的诱发基因,这对疾病的预防和治疗都是十分有意义的。由于生物序列本身的特殊性,采用单一支持度的挖掘方法在某些方面并不能满足生物序列挖掘的目的,所以本文提出了基于多支持度的生物序列模式挖掘的方法,该方法利用树的层次特征,根据两个性质对其进行删减,最终找到满足最小支持度的最终频繁模式,实验表明,该算法降低了时间和空间的复杂度。
其他文献
随着计算机软件规模的扩大及复杂性的提高,软件需求成为整个软件工程中的关键一环,其重要性越来越受到人们的重视。研究发现,绝大部分的软件缺陷都是在需求阶段发生的。伴随
1946年Dennis Gabor提出了一种同时用时间和频率表示一个时间函数的方法,这种方法被后人称为Gabor展开[2-3]。尽管Gabor变换在非平稳信号分析处理中有广泛的应用,如生物医学
现代制造企业的产品设计是基于知识的设计,统计表明约有90%的产品设计可以重用以前的设计知识。然而,由于对产品设计知识缺乏统一的组织和表示,无法表达知识的语义信息,导致设
随着计算机技术的发展和三维模型的广泛使用,怎样从大量的三维模型库中快捷高效地检索出人们想得到的三维模型这已经是一个需要尽快解决的重要科研课题。基于关键词的三维模
生物学与信息科学是目前世界发展最迅速,影响最广泛的两门学科,这两门学科交叉而形成的新兴研究领域属分子计算。根据目前的研究情况,分子计算可以归纳为两大主要的研究方向:
随着互联网技术的快速发展和个人计算机的普及,目前全世界每四个人中就有一个人使用计算机上网[1],2010年中国的网页数量高达336亿,其中87.8%的数据是以文本的形式存在[2]。
随着互联网进入生活的各方各面,网络入侵也日益成为人们面临的安全问题。因此,有效地检测到网络入侵行为具有十分重要的意义。网络入侵检测方法分为基于特征的入侵检测和异常
无线传感器网络是由部署在监测区域的大量廉价的微型传感器节点组成的,且由无线通信方式形成的一个多跳的自组织网络系统,它的目的是对网络覆盖区域内的感知对象进行实时的感
在分布式数据库中,系统的性能受查询策略的影响,而一个查询的处理代价通常是由进行通信的信息量来决定。半连接方法可以减少通信数据的传输量。分布式数据库具有并行处理子查
在基于内容的图像检索系统和人脸识别系统中,提取有效的鉴别特征是系统中的关键环节,是为下一步检索和识别的工作奠定基础的重要步骤。本文基于对子空间特征提取方法的深入研