基于概念格的多数据源中分类规则挖掘研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:ft4200770
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
并行/分布式数据挖掘是针对当前信息量日益增大以及数据所呈现的高维、异构和分布式存储等特性而出现的新的研究课题,分类规则挖掘是数据挖掘领域的重要分支。本文着重对多数据源中的分类规则挖掘问题进行研究。由于概念格具有完备的结构和坚实的理论基础,是知识提取的有效工具,因此采用概念格作为分类问题求解模型。 本文的主要工作如下: 1.研究基于概念格的多数据源中分类规则挖掘方法。考虑到挖掘结果的可理解性并结合具体的实现方案,本文分析了模型表示和规则表示两种知识表示方式,并选择以直观的规则表示方式来描述分类结果。在此基础上引入知识合并思想,提出分类规则的直接融合和同步融合思想以及相关算法,并对这两种思想进行分析比较。最后,选择规则的同步融合策略实现多数据源中的分类规则挖掘。 2.在对大规模数据的分类规则挖掘所涉及的过拟合问题的现象及其产生原因展开分析的基础上,引入剪枝策略,分析预剪枝和后剪枝两种剪枝方法,对概念格模型进行后剪枝,并以实验对剪枝的效果进行了比较和分析,表明了方法的有效性。 3.在上述研究的基础上,提出基于概念格的多数据源中分类规则挖掘实验系统DDM CLASS。
其他文献
网络事务监控与分析系统的着眼点是信息流分析与数据留存。本文在论述网络事务监控的意义及原理的基础上,对网络监听技术、TCP/IP协议、HTTP协议、FTP协议等进行了深入地分析,通
数字签名在电子商务中的应用中占有重要地位。作为数字签名的一个分支——代理签名,由于其在电子银行,电子商务、移动代理等实际应用中的重要作用,一提出便受到广泛关注,成为
随着Internet技术快速的发展,Web的应用变得越来越广泛。同时Java技术因为具有跨平台的特性也取得了广阔的发展空间。自从1999年推出以来,SUN公司J2EE平台作为一种Web应用的
现阶段校园信息化建设面临多个问题:现存的信息系统之间交互性较差、数据重复、信息不同步、信息孤岛等。本文分析了其他高校“数字校园”建设方案及企业应用集成的案例,分析了
本论文的目的在于扩展传统的防火墙技术,使之能够防范来自内部的攻击。传统防火墙之所以存在这种缺陷是因为它是对外防护,而对内部网络的主机认为都是可信的,缺乏对内部局域网主
随着计算机网络技术和多媒体技术的飞速发展,多媒体信息给人们的生活创造了极大地便利,但同时也暴露出越来越多的安全隐患问题。信息隐藏技术作为信息安全技术研究领域中的一
学位
近年来,随着计算机技术与网络技术突飞猛进的发展,现代企业遇到了巨大的机遇与挑战。如何提高自身的竞争力?很多企业都认识到企业信息化是企业强大的必由之路,然而我国企业信
随着大数据时代的到来,如何高效地分析处理海量数据成为了计算机学科的一个新的挑战。MapReduce就是在此背景下出现并飞速发展的一种计算模型。在此之前,并非没有并行计算模型,
关联规则问题是数据挖掘领域的一个研究热点。该问题的解决分为两步:频繁项集挖掘和利用这些频繁项集产生强关联规则。由于第一步决定着整体性能,因此研究频繁项集挖掘问题具有