数据挖掘技术与分类算法研究

被引量 : 73次 | 上传用户:skyy2483
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘(Data Mining)是致力于数据分析和理解,揭示数据内部蕴藏知识的技术。它是未来信息技术应用的重要目标之一。经过数据挖掘领域研究工作者十几年的努力,出现了许多数据挖掘的新概念、新方法,特别是最近几年,一些基本概念和方法趋于清晰,数据挖掘的研究正向着更加深入的方向发展。像其它新技术的发展历程一样,数据挖掘技术也要经过概念提出、概念接受、广泛研究和探索、逐步应用和大量应用等阶段。从目前的现状看,大部分学者认为数据挖掘的研究仍然处于广泛研究和探索阶段,迫切需要在基础理论、应用模式、系统构架以及挖掘算法和挖掘语言等方面进行创新。 分类作为数据挖掘的一个重要研究课题,在统计学、机器学习、神经网络和专家系统中得到了较早的研究,但其中大部分都是内存驻留算法,通常假定数据量很小。随着数据库中数据量和维数越来越大,建立高效的、适用于大量数据集的分类算法已成为数据挖掘面临的一个挑战性问题。近年来,数据挖掘界提出一种新的知识模式,称作跳跃显露模式(JEP:Jumping Emerging Pattern),用来表示两个数据集之间的重大差异,并出现了一些基于JEP的分类算法。研究表明,这些基于JEP的分类算法具有很好的预测准确性,而且数据量和维数都是可规模化的。但是,这些基于JEP的分类法通常需要挖掘大量的JEP,因此影响了它们的效率,且增加了分类算法的复杂性。本文提出一种特殊类型的JEP,称作最有效的跳跃显露模式(SJEP:most Significant Jumping Emerging Patterns)。分析结果表明,SJEP具有很强的区分能力,足以用来建立精确的分类算法。由于已有的算法都不能直接挖掘这种SJEP,本文给出了一种可以在两个数据集上双向挖掘SJEP的有效算法,并讨论了如何建立基于SJEP的分类算法(SJEP_Classifier)。与已有的基于JEP的分类算法相比,基于SJEP的分类算法不仅使用的JEP数量少,预测精度高,而且可以在很短的时间内(通常为若干秒)完成学习阶段。实验结果表明,本文的分类算法(SJEP_Classifier)在平均预测精度方面也优于CBA和C4.5等分类算法。 总之,本文在分析、归类现有数据挖掘研究成果以及原型系统的基础上,进行了数据挖掘应用系统体系结构和基于SJEP的分类理论模型以及算法方面的研究,所设计的算法在挖掘效率和对大型数据库挖掘的可用性方面具有潜在的应用前景。
其他文献
现代化的酒店是集客房、餐饮、通讯、美容、娱乐、商务、文化及其他各种服务与设施为一体化的消费场所。宾馆酒店组织庞大,服务项目多,信息量大,要想提高劳动效率,降低成本,
本论文主要研究张裕公司近年来在烟台市场的销售渠道模式。该公司在不断扩大市场份额的同时,不断调整自己的市场战略。由于烟台市场相对成熟,资金实力、人力资源又相对丰富的
随着新一轮语文教材改革的深入,越来越多的语文教学法专家和语文教材专家关注到了“语文”与“文化”的关系。对此,笔者提出了高中语文教材文化构建的研究课题。研究这个课题
目的:探讨瞬态诱发耳声发射(TEOAE)甘油试验对初次发作眩晕的诊断价值。方法:对28例眩晕初次发作,纯音听阈(PTT)正常,无耳鸣及耳胀满感,病史及临床特征不支持非梅尼埃病的眩
<正>十世纪初在中国北方草原建立强盛的辽帝国的契丹族,堪为我国古代一优秀民族.在这个优秀的民族当中,曾经涌现出一大批杰出的政治家、军事家和文学艺术家.著名政治家耶律屋
本文采用的为AT89C51单片机,以C语言程序设计为基础,设计一个用8位数码管显示时、分、秒、日期,并且还显示闹钟的数字电子时钟,通过LCD来显示该设计的主要的功能。
<正>契丹黑山是契丹本境的一座重要山镇,当时也称炭山,今名罕山.位于内蒙巴林右旗北境,地当大兴安岭南行正干.此山逶迤磅礴,峭拔奇险,令人莫测高深;林崖苍郁,风景绝美,又使人
期刊
本文采用阅读文献资料法、调查法、访谈法、数理统计法对上海市羽毛球场馆基本情况及经营管理现状进行调查研究,指出上海市羽毛球场馆经营管理中存在的问题,并提出要加强羽毛
国防实力是一个国家综合国力的重要组成部分,而由于国防费规模的制约,目前我国的国防实力不能满足保卫国家主权与领土完整、为我国经济建设保驾护航的要求。党的十六大提出了
随着海洋技术的发展,各种用途的海洋平台越来越多地出现在环境恶劣的深海中。无论是在正常海况还是在极限海况,即使强度足够,在风、浪、流等环境载荷的作用下,平台都有可能产