连续属性离散化方法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:iovewpycoo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实际数据库中存在较多的连续型数值属性,而现有的很多数据挖掘方法只能处理离散型的属性,因而需要对连续属性进行离散化,因此,连续属性离散化方法成为数据挖掘领域重要的基础性工作,直接影响到数据挖掘的质量。已经出现了多种连续属性离散化算法,且各有特色和优劣。本文结合粗糙集合和信息熵的相关概念,开展连续属性离散化研究,并提出一种新的离散化方法。 论文的主要工作如下: (1)综述了数据挖掘、信息系统和信息熵的基本理论,介绍了粗糙集合的重要表示形式——决策表,简述信息论的历史和发展,阐述了信息熵的基本概念。 (2)系统分析了连续属性离散化的相关研究成果,并做了必要的比较。 (3)提出了区间类信息熵的概念;结合粗集的有关理论,提出一种处理连续属性的离散化算法——DICE算法,并从理论上对DICE算法进行了分析。 (4)实现了本文提出的DICE算法,并以实际数据对DICE离散化算法与C4.5自带的离散化方法进行比较,给出了实验分析结果并加以说明。
其他文献
并行计算系统中资源的负载平衡是关系到并行效果的一个极为关键的因素,如何能充分利用并行计算系统中的资源更好的进行并行计算的问题,将参与机能统一的调度和管理起来,使任务的
投资监控系统是一个涉及经济利害的金融系统,所以系统对于用户的权限管理有着相当严格的要求,同时,由于系统功能的繁杂和用户群的庞大,对系统的权限管理以及日后的权限维护提
随着计算机的出现与普及,尤其是上世纪90年代互联网蓬勃兴起之后,人们摆脱了信息贫乏的桎梏,进入了一个信息极度丰富的社会,人们能从Internet获得数目惊人的信息。如何快捷准确地
安全防范问题仍然是现代人们普遍关心的问题。传统模拟家居监控产品已不能满足社会的需要,将逐渐被数字化的产品取代。随着嵌入式技术、多媒体技术、网络技术的快速发展,网络
在软件测试中,测试数据生成是其核心与关键。实际测试活动中,往往要求能达到一定程度的路径覆盖。因此,探讨一种辅助面向路径测试数据自动生成的有效方法,具有十分重要的意义。程
果蝇视觉系统对运动目标非常敏感,它为运动目标的位置、速度检测与跟踪的研究提供了丰富生物信息,也为探讨人工果蝇视觉神经网络奠定了生物理论基础。基于此,本文针对静态、
开关磁阻电机(Switched Reluctance Motor,SRM)是一种在20世纪80年代兴起,并得到迅速发展的新型调速电机。它不仅保持了交流感应电机的结构简单、坚固可靠的优点以及直流电机良好的可控性,还具有交流调速系统和直流调速系统所达不到的性价比高和适用能力强等优点,是现代传动系统中强有力的竞争者,具有广阔的发展前景。但是由于SRM运行时由径向吸力所导致的定子形变激发定子振动而产生噪声
随着大数据时代的到来,数据仓库已普遍运用在各个领域,企业数据仓库的分析型处理技术也日趋成熟。企业管理者可以通过决策分析系统从海量数据中提取重要数据以支持决策,决策
随着全球信息化的进程逐渐加快,网络信息量的爆炸式增长,人们查找信息越来越难。 Web 搜索引擎的出现在一定程度上解决了这种矛盾。然而现行的大型通用搜索引擎无法根据用
医学影像己成为现代医学中的一个重要的组成部分。医学影像的研究包括两个独立的部分:医学成像系统及医学图像处理。前者强调对图像形成的过程研究,后者主要对已经获得的图像