【摘 要】
:
数据挖掘能从大量数据中,提取有用的信息。分类是数据挖掘的重要功能之一,在很多领域得到了广泛的应用,如医疗、保险、金融等。不同的分类方法有各自的优点,同时也存在一定的
论文部分内容阅读
数据挖掘能从大量数据中,提取有用的信息。分类是数据挖掘的重要功能之一,在很多领域得到了广泛的应用,如医疗、保险、金融等。不同的分类方法有各自的优点,同时也存在一定的局限性。对于同样的数据,采用不同的分类方法,得到的准确率可能不同。朴素贝叶斯算法由于算法简单,准确率高而经常被采用。但当属性独立性假设不成立时,有可能导致待测样本类别判断错误,且当待测样本到各类别的概率均相同时,无法判断该待测样本类别。本文针对朴素贝叶斯算法的局限性提出三种改进算法,并在蘑菇数据集上进行实验。实验表明,改进后的算法要比朴素贝叶斯算法准确率高。粗糙集是分类的另一种重要的技术。属性约简是粗糙集理论的一个重要方面。属性约简能在保持知识库的分类和决策能力不变的条件下,删除不相关或不重要的属性。对于给定的信息系统,采用不同的约简算法,将得到不同约简结果。而不同属性约简的准确率往往不相同,一些属性约简结果的分类准确率可能比另一种约简结果的分类准确率低得多。针对这种情况,本文提出基于属性频率和下近似的属性约简算法,并将和其它两种约简算法进行比较。实验表明,本文的属性约简算法的准确率较高。
其他文献
低剂量CT肺部筛查是发现早期肺癌的重要手段。其中,肺间裂是肺叶的边界,对肺间裂的准确提取,有利于后续的图像配准、三维重建等。论文在分析、总结国内外现有医学影像分割方法的
视觉显著性检测是通过计算机来模拟人类的视觉系统,定位显著性区域。它能够将图像中的背景等无用信息过滤掉,而仅仅留下重要信息。由于现有的主流算法均是基于自底向上的。这类
在嵌入式系统中,设备驱动程序是系统控制硬件的接口,其功能直接决定了嵌入式系统的应用。研究表明,开发人员要花费约16%的时间进行底层驱动代码的开发。而原有的那些通过产生简单
计算机的使用越来越普及,人们对计算机的依赖程度也越来越高。计算机软硬件系统规模也随之日益复杂,如何保证其正确性和可靠性,逐渐成为当前理论界和产业界共同关心的重要问题。
Internet是新兴的信息发布和流通媒体,其中文本信息占整个互联网信息总量的60%,由于缺乏类似于传统媒体一样对信息发布的监控手段,大量没有受到监控和控制的网络不良文本信息随之
随着电力信息化的发展,流程复杂的标准化作业由MIS(管理信息系统)实现管理。目前电力MIS大多是基于C/S架构和Web应用,但是C/S架构存在部署困难的弊端,随着用户的增多,升级、维护
工作流是指工作之间流动、转移的动态过程。
工作流概念起源于生产组织和办公自动化领域,是针对日常工作中具有固定程序活动而提出的一个概念,目的是通过将工作分解成定义
维护质量最重要的因素就是成本,在维护阶段看似微小的变更会波及整个系统,造成不可预见的重大影响。需求跟踪可以改善产品质量,降低维护成本,容易实现资源再利用。任何软件系统对
曲面相交算法是计算机辅助几何设计中的一个重要研究课题,是用计算机及其图形工具表示、描述物体形状和设计几何实体,模拟物体动态处理过程的一门综合技术。算法有各自的应用
启发式搜索是智能规划领域的重要方法之一,其策略核心为启发式函数的拟定。路标是规划任务中成功规划必须实现的子目标,实验证明,基于路标的启发函数能有效引导启发式搜索过程并