基于序列数据库的数据挖掘系统的设计和研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:shicyh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
序列模式挖掘就是发现序列数据库中的频繁子序列作为用户感兴趣的模式。它是当前数据挖掘领域中一个很重要、很活跃的研究课题。在现实生活中有着广泛的应用,例如:顾客购物模式分析、网络访问模式分析、科学研究或自然灾害中的序列或与时间有关的过程分析、疾病治疗过程分析、DNA序列分析等等。因此,对于序列模式挖掘的深入研究必将有力地推动相关领域的研究。 用户在使用数据挖掘系统进行数据挖掘时经常带有随意性、反复性。即用户不大可能一次就确定进行数据挖掘的最小支持度阈值,而需要进行多次反复。如果数据挖掘系统运行的速度很慢,那么用户就不可能容忍漫长的等待时间。为提高用户使用系统的满意度,可以将用户使用系统过程中发现的知识保存在知识库中,以加快系统的运行速度。本文在此基础上,设计了序列模式数据挖掘系统的结构,提出了知识库所存储知识的结构。知识库中存储有所包含知识的最小支持度阈值,所发现的序列模式以及它们的支持度,然后根据用户查询时可能提出的最小支持度,将这些知识分块存储,便于查询。提出了建立知识库的方法,知识库在何时更新,如何更新等等。 对于序列模式数据挖掘来说,挖掘算法是系统成功的关键。研究人员一直在努力设计效率更高的数据挖掘算法。本文在研究当前比较流行的一些序列模式挖掘算法的基础上,重点分析了MEMISP算法的不足。针对这些不足,本文提出了一种改进的MEMISP算法。在将数据读入内存时即将原数据库进行投影操作,去除了非频繁项,避免了在进行数据挖掘时的无用读取。设计了新的算法处理的数据结构,并根据这样的结构,提出了算法新的处理过程,使改进的算法更高效。
其他文献
本文讨论用间断Galerkin方法对一维和二维浅水方程进行求解的问题。对使用间断Galerkin方法求解浅水方程中所涉及到的过程及方法作了比较详细地说明。 在四叉树网格的基础
伴随着网络的发展,安全问题日益突出。传统的安全手段已经不能满足现代网络安全的发展要求,以防火墙为代表的被动防御措施已经不合时宜。作为第二道防线的入侵检测系统,以其主动
实时数据库根本目标就是使满足截止时间的事物数量为最大,因而管理和支持优先考虑时间的事务处理是非常重要的。然而,随着实时计算迅速发展,安全和时态一致性就成了许多实时
本文分析了目前安全评估技术中常用的信息探测技术、弱点检测技术和计算机网络安全模型,提出了一种用于分析潜在攻击路径的网络安全性分析模型,进而给出了基于本模型的网络
对于许多实际应用,稀有类分类问题都非常重要。而稀有类样本的数量稀少使得很难使用传统的分类器对它们准确分类。由于稀有类问题的特殊性、复杂性及难解性,目前研究稀有类问
随着计算机技术和网络技术的快速发展,互联网已成为当今世界上最大的信息平台。面对互联网中日益增长的海量数据,单一的返回网页的信息检索方式已经无法满足人们准确高效获取
伴随着网络技术和多媒体技术的飞速发展,多媒体数据逐渐成为人们获取信息的重要来源,并成为人们生活的重要组成部分。因而,如何保护多媒体信息的安全成为国际上研究的热门课
  本文介绍了在动态规则集的防火墙上,根据对每个规则匹配成功的统计数据,计算其优先级,采用霍夫曼编码的思想及时调整各规则的相对位置,让已经匹配成功次数较多或最后匹配成功
随着计算机图形学的发展,对自然景物的模拟引起了人们的普遍关注,其中水流现象的模拟也成为了热门研究课题。要得到逼真的水流动画,关键就是模拟出水流在各个时刻的形态。
网格是当前并行与分布式计算技术的一个重要发展方向,其目标是实现对地理上广泛分布的大量异构资源进行共享。资源管理是网格的关键技术之一,但是由于网格固有的异构性、分布