基于粗糙集理论的连续属性离散化算法研究

被引量 : 0次 | 上传用户:chengleitao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
连续属性离散化是数据挖掘和机器学习研究及应用中的一个重要方面。在很多规则提取、特征分类算法中,连续(实值)属性必须进行离散化。离散化是把连续属性的取值范围或取值区间划分为若干个数目不太多的小区间,其中每个小区间对应着一个离散的符号。离散化是否合理决定着表达和提取相关信息的准确性。目前,大多数离散化算法是基于统计学或基于信息熵的,具有代表性的Chi2系列算法就是基于概率统计理论;类-属性相互依赖(CAI)的相关算法是基于信息理论的连续属性离散化重要方法。离散化算法的关键在于如何获得最优划分,最大程度地保持信息表示的意义,减少信息损失。首先,本文深入分析了Lukasz A Kurgan和Krzysztof J.Cios提出的基于信息理论的类—属性间最大相互依赖的连续属性离散化算法—(The Class-Attribute Interdependency Maximization)CAIM算法,针对其不足,提出了对CAIM的改进算法。在CAIM算法中,离散判别式仅仅考虑了区间中最多的类与属性间的依赖度,使离散化过度而导致结果不精确,本文提出的改进算法考虑到按属性重要性从小到大顺序进行离散,同时根据粗糙集理论提出了条件属性可分辨率概念,与近似精度同时控制信息表最终的离散程度,有效解决了离散化过度问题。其次,本文对Chi2相关算法和类-属性相互依赖(CAI)的相关算法进行了深入分析,提出了一种基于粗糙集理论的连续属性离散化新算法。在粗糙集理论中要求离散化保持原有决策系统的不可分辨关系,但以往的一些算法在离散过程中会使近似精度控制在可以接受的范围,即允许一定的错分,针对此不足,在保证决策属性绝对不改变的情况下,提出一种新的区间拆分方法,更合理有效地对连续属性进行离散化。
其他文献
依学界通说,居住权是源自罗马法的一项古老的制度,其属罗马法他物权之一种,位于役权之人役权下,意为使权利人有权在他人的房子中居住之权利。西方大陆法系主要民法典国家多对
近几年来,信息技术已经广泛地走进了校园,走进了课堂,走近了教师和学生,正以多种形式影响着我们的教育教学工作。在教育领域全面深入地运用现代信息技术,促进教育改革和教育
都市作为区域经济、文化、政治等中心,是现代旅游发展的主要载体之一。在注意力——体验经济时代,旅游者越来越趋向于选择能够满足高级精神需求和内在心理需求的旅游城市。因
我国是渔业大国,水产干品及半干品占我国水产品出口量的很大份额。但是现有的干燥加工技术却远远不能满足国内外市场对其产量和质量的要求。实践证明,用热泵干燥法干燥海产品,不仅可降低能耗,而且可大幅度提高其品质及附加值,但此项技术在国内还少有研究。因此,利用热泵干燥法对海菜的干燥进行研究,对促进我国渔业经济的发展具有重要意义。本文主要研究单个海带片在烘干过程中的干燥特性,并将不同间距的格栅应用于热泵型海带
糖尿病视网膜病变(Diabetic Retinopathy,DR)是最常见的糖尿病微血管并发症,病程10年以上的糖尿病病人DR发病率高达80%,已成为全球最主要的致盲性眼病之一。DR的病理机制以视
激光+电弧复合热源焊接技术作为一种新型、高效的焊接技术,以其焊接熔深大、焊接速度快、变形小、搭桥能力强等优点,受到国内外学者的广泛关注。近年来,随着激光器的发展,大
模态参数是一个结构动态性能的重要指标。模态参数的合理与否直接影响着工程结构的运行性能。对于传统的实验模态分析方法来说,要激起大型结构的振动响应较为困难,而且因为要
本文介绍了Zigbee无线协议在智能开关控制器中的应用,通过遥控器控制家中所有的Zigbee开关,通过编程也可以实现复杂开关量的控制。提出了一种基于CC2430芯片及ZigBee技术的智能
在企业人才资源管理系统各个组成部分中,绩效考评是最主要的部分,在如今经济全球化的时代,如何设计出一套既符合我国发展的需要,又科学的绩效考评体系,是一个全新而有意义的
通过对国内外供暖发展状况及相关政策进行对比,我国供暖存在的问题主要有三个方面:第一计费方式不合理;第二住户的调节手段落后;第三资源利用率低,浪费严重。根据以上三点问