基于粗糙集的数据挖掘约简算法的研究与应用

来源 :西南大学 | 被引量 : 0次 | 上传用户:wsdemon8911
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的高速发展,数据库应用的规模不断扩大,原有的数据库处理方法己经远远不能满足现实需要,数据挖掘正是为迎合这种需要而产生并迅速发展起来的一种新的数据处理技术。它能够在没有明确假设的前提下,自动地从数据中抽取隐含的、具有潜在应用价值的信息,经过检验和验证,然后返回对用户最有用的结果。目前数据挖掘已经被越来越多的领域所采用,具有广泛的应用前景。 在数据挖掘的过程中,存在大量冗余数据影响我们的决策,粗糙集理论在得到的决策规则和推理过程方面是最有利的工具。它不但可以在不影响数据表达信息的前提下使原来的数据量大为减少(数据浓缩),而且还可以产生决策规则,从而挖掘出数据中的有效模式。粗糙集理论不同于其他处理不确定性问题的理论,如概率方法、模糊集方法和证据理论方法等,它无需提供任何所需处理数据集合之外的先验信息。 本文首先对基于粗糙集的数据挖掘过程——数据预处理、约简及规则获取进行研究。其次,对挖掘过程中的核心问题——约简,进行了深入的探讨,对目前的约简算法展开分析,指出了其中存在的问题。 其次,针对目前较多的启发式算法为了减少时间代价,无法得到决策表最小约简,且时间复杂度与空间复杂度仍然在|U|~2(|U|为决策表中记录数)的问题,提出一种既可以降低时间复杂度和空间复杂度,又可以求得最小约简的算法——基于DMI(区分矩阵属性约简改进算法)的改进算法。主要内容如下: 1.对DMI算法进行了分析,举例说明了该算法对于不相容决策表的不正确性:然后给出了一种对相容决策表与不相容决策表都适合的改进约简算法。 2.针对目前的约简算法必须反复遍历决策表各个数据项,使时间复杂度、空间复杂度较高的现状进行了改进,改进后的算法不用遍历完一次决策表就可以实现约简,大大减少了算法的时间和空间复杂度。 3.突出了属性值约简对数据约简的重要性,真正实现了决策表的最简化。并提出改进的值约简算法,时间复杂度在原有基础上大大减少。 4.将3个对约简的改进思想融合在一个算法当中,成为真正意义上的约简算法,实现了属性约简和属性值约简的一体化。同目前普遍存在的用不同算法独立处理属性约简和属性值约简的方法相比,本算法的空间复杂度大大减少。因此,本算法具有很强的实践意义和应用前景。 5.算法的整个约简过程都是针对所有对象同时进行,真正考虑到了整个决策类对约简的意义,避免了发生求得局部最优的错误。
其他文献
本文首先对镁合金筒形件的热拉深工艺进行了数植模拟和实验研究,通过系统分析模拟及实验结果,对工模具结构的影响进行预测并加以改进,同时掌握工艺参数的影响规律,然后进一步
在各种各样的土建工程中,混凝土施工技术是其基本需求技术,并且随着我国经济不断上升,国人对于生活质量要求不断提高,这表现在生活的方方面面,这其中一项很重要的指标就是建
日益严重的能源危机促使生物质能的开发和利用技术得到大力发展。生物质气化是生物质高效利用的重要方法之一,但是燃气在净化过程中产生的焦油废水处理已成为制约生物质气化技
随着科学技术的不断发展,人类社会己进入信息时代。信息技术在迅速发展的同时,也加快了企业的现代化与信息化的进程。现代企业管理技术是计算机技术与管理科学的结合。它的目的
TiAl合金具有良好的高温强度和抗蠕变性能,是很有前景的高温关键部件的候选材料。与变形合金相比,铸造TiAl合金具有明显的成本优势。我们采用专利熔炼铸造技术已经实现了TiAl汽
芡实叶瘤病病原为担子菌亚门实球黑粉菌属真菌,发病初期叶面出现褪绿黄斑,后隆起膨大呈瘤状,不规则,黄色,上有红色条纹或斑块,直径5~40厘米,高3~10厘米,后期开裂或腐烂,叶片
本刊今年第五期发表了《“和平美神”与“中国梦”——薛林兴教授谈艺录》引起读者广泛关注,一些读者来函来电,希望薛林兴教授谈谈他的创作感受。作为中国新侍女画派创始人,
作为自动化领域的热点之一,现场总线已成为自动化系统与分散的现场设备间信息交换的主要技术。PROFIBUS是国际上应用十分广泛的工业过程现场总线,主要应用于加工自动化、过程自
通过对牛体重和采食量进行测量,研究人员可以得出牛的每日最佳进食量和不同的饲料配比对牛体重变化的影响,同时也可以体现出牛的健康状况。  本文利用ZigBee技术组建无线传感
就从目前的情况看来,我国不仅科学技术水平得到了很大程度地提高,而且经济水平也在不断的增加,越来越多先进的技术和设备被研发出来,并且在实际的应用过程当中取得良好的效果