基本显露模式的挖掘算法

来源 :郑州大学 | 被引量 : 0次 | 上传用户：tangtieming1983

【摘要】

：

数据挖掘是从海量的数据中挖掘有潜在价值的信息的技术。分类是数据挖掘中一项非常重要的任务,在政府组织、科学研究、商业等诸多领域具有广泛的应用。统计学、机器学习、神

【作者】

：

魏芳

【机构】

：

郑州大学

【出处】

：

郑州大学

【发表日期】

：

2005年期

【关键词】

：

数据挖掘分类显露模式基本显露模式

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据挖掘是从海量的数据中挖掘有潜在价值的信息的技术。分类是数据挖掘中一项非常重要的任务,在政府组织、科学研究、商业等诸多领域具有广泛的应用。统计学、机器学习、神经网络等领域的研究者提出了很多分类算法,这些算法大都适用于小型数据集,基于显露模式(Emerging Patterns,EPs)的分类方法是针对大型数据集的分类提出的。显露模式是那些从一个数据集到另一个数据集支持度发生显著变化的项集,它对分类是有用的,这是因为它能捕获数据集中不同类之间的差异。第一个基于EPs的分类算法是G.Dong等提出的CAEP算法,此后相继提出了JEP-Classifier、DeEPs等一系列基于EPs的分类算法。在分类时我们发现用于分类的EPs的数量通常很大,不能选用所有的EPs用于分类。Fan和Ramamohanarao提议使用一种特殊的EPs,称作基本显露模式(essential Emerging Pattems,简称eEPs),进行分类,并建立了基于eEP的Bayes分类法,取得了很好的分类效果。因此,如何高效地挖掘出eEPs是一个很重要的问题。eEPs是那些“最短的”EPs,使用EPs的边界表示,eEPs恰是EPs边界表示的一组下界,因此可以使用G.Dong和Li提出的边界算法来挖掘所有的eEPs。然而,这种方法的效率极低。为挖掘C类上的eEPs,必须首先挖掘C类和非C类上的长模式,然后使用边界算法得到C类上的eEPs。挖掘长模式是一项很耗时的工作,并且采用边界算法产生的eEPs并不包含支持度和增长率信息。为了得到eEPs的支持度和增长率,还需要再次扫描数据集,统计每个eEP的出现频率并计算增长率。本文的主要工作是提出了一种基于模式树(P-树)的eEPs挖掘新算法eEPMiner。eEPMiner采用模式增长的策略,只需两次扫描事务数据库,就能挖掘出C类上所有的eEPs,并同时得到它们的增长率和支持度。并且在挖掘过程中,模式树不仅存储数据集中所有项的信息,而且支持类的信息。我们不需要附加的空间就可以直接在模式树上挖掘出所有的eEPs。在UCI机器学习数据库的多个数据集上的实验表明,eEPMiner具有很好的性能,其速度比基于边界的算法快得多。

其他文献

一维可重构流水线总线并行机上的图像处理算法设计

　　数字图像处理是一门新兴的学科，它广泛地应用于生物医学工程、遥感航天、通信、工业、军事公安等领域，并取得了巨大的经济效益与社会效益。但同时，由于数字图像处理涉及的数

学位

图像处理流水线总线模板匹配并行算法

基于agent的Web服务集成技术研究

　　本文的主要工作是以Web服务为应用背景，研究Web服务集成中的若干关键技术，研究了Web服务集成中的若干关键技术，提出了一种基于agent的Web服务集成框架。　　本文构建了一个W

学位

Web服务服务集成服务质量Agent技术协同技术中间件

基于局部小波变换的分形图像压缩算法研究

分形理论(Fractal Theory)是图像压缩中使用的一种新理论,它以压缩比高和解码速度快等优点,受到广泛的重视并得到了充分的发展。本文将分形理论和小波变换结合起来,提出一种

学位

分形理论小波变换图像压缩迭代函数系统

基于领域工程的软件模块自动生成的研究

随着软件工程和软件设计理论和方法的不断发展,现代软件产品的制作逐渐向自动化发展。这要求使用面向重用的软件工程方法来面向软件系统族进行软件组件的制作,形成特定的软件

学位

领域工程领域分析DSL代码生成产生器

XML在PRM系统数据交换中的应用研究

如何在分布式环境下实现异构数据的交换，是当前研究的热点问题，虽然己有多种实现跨网络数据交换的技术。但这些技术对运用于松散耦合、地域分布环境均存在这样或那样的问题，共有

学位

XMLWeb ServicesSchema数据交换分布松散异构环境

路由协议测试系统研究及实现

　　本文主要讨论了一种易于扩展的协议测试环境的设计，以及在此基础上实现的路由协议测试系统,详细阅读与路由协议相关的文档，分析、归纳路由协议的特点；对路由协议一致性测试

学位

路由协议测试系统协议测试测试方法

基于Web门户技术的EAI的研究与实现

本文对Web门户技术的企业应用集成进行了研究。文章分析了中小企业对应用集成的需求，设计并实现了一个基于J2EE技术、Web技术、轻量级的企业门户框架，使开发人员能够在此基础上

学位

网络技术信息共享企业应用集成Web技术

嵌入式浏览器排版布局引擎并行机制的研究与设计

近年来，随着人们对消费电子产品的性能需求日益增强，嵌入式处理器也在飞速发展，多核处理器已经问世。但是嵌入式浏览器的排版布局引擎仍然是传统的单线程架构，在多核处理器上没有

学位

嵌入式浏览器排版布局引擎并行化样式匹配布局计算

基于图像分类及检索的Logo识别技术的研究与实现

Logo作为企业的一种重要标志,在查询带有Logo标志的企业信息时,Logo识别将发挥重要作用。尤其是,随着数字化信息技术的发展,人们可以利用智能手机等移动设备随时随地获取一张

学位

Logo识别图像分类多类型特征提取图像切割Logo图像检索

概念格合并算法及匹配模型研究

随着计算机和网络信息技术在各个领域的广泛应用，人们获取信息的方式越来越智能化。如何高效地从相关信息中获取重要知识，是当前需要重点研究的关键问题之一。概念格理论的提出

学位

概念格格合并格匹配

基本显露模式的挖掘算法

与本文相关的学术论文