连续属性离散化算法比较研究

被引量 : 0次 | 上传用户:zhuzhugugulili
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
连续属性的离散化是数据分析预处理中的一项重要内容,在数据挖掘、机器学习等领域中具有重要作用。针对离散化问题,研究者提出了很多方法,从不同的角度看,可以把这些方法划分为不同的种类,如根据离散化处理时是否以类别信息做参考,可以把离散化方法分为监督的离散化方法和非监督的离散化方法。由于各种离散化算法侧重点的不同,针对不同结构的数据,不同的离散化方法往往得出不同效果的离散化结果。由于目前尚没有设计出适合不同数据结构、不同领域数据的通用离散化方法,因此,对比不同离散化方法的优缺点,研究各种离散化方法的适用性问题,对选择合适的离散化方法,得到有效的离散化结果具有重要意义。本文首先介绍了连续属性离散化任务及目标,描述了离散化问题及本质,并从不同的角度上对离散化方法进行了分类,介绍了几种经典的离散化方法。接着本文根据离散化方法的分类,建立了离散化方法的层次框架。在层次框架中,首先将离散化方法分为单变量离散化方法和多变量离散化方法,再分为拆分的离散化方法和归并的离散化方法,再进一步划分为监督的离散化方法和非监督的离散化方法。本文给出单变量拆分方法、单变量归并方法、多变量拆分方法和多变量归并方法的离散化过程,并分析了一些离散化算法,使用标准数据给出这些算法的断点。然后本文选取一些单变量离散化算法和多变量离散化算法进行实验比较和分析。实验比较和分析分为单变量离散化算法的实验比较与分析、多变量离散化算法的实验比较与分析和单变量与多变量离散化的实验比较与分析,并对一种离散化算法进行了改进。最后本文介绍了基于粗糙集的数据挖掘平台。
其他文献
煤炭资源是人类赖以生存、国民经济发展的重要物质基础,是关系到国民经济命脉和国家安全的重要战略物质。新中国成立50多年来,东北三省乃至全国范围内,煤炭在一次能源生产和
目的:通过临床与实验研究,阐明参芪解毒汤的部分作用机理,验证其疗效,为临床应用提供科学的理论和实践依据,并以方现法,用本方来体现益气活血,解毒泻浊,温阳固肾之法治疗慢性肾衰竭的
随着我国各级政府行政管理的需要,抽象行政行为的数量急剧增多,但是由于其他非诉监督机制已难以有效的发挥其监督制约的作用,以致行政机关在实施行政管理的过程中,抽象行政行为违
本文结合某单位项目“某型号舰船上方位基准传递分系统”,针对某型号导弹方位瞄准系统中的CCD自准直测角分系统进行了较为系统全面的方案设计和分析,目的在于结合实际工程项
机械划片是目前三结砷化镓太阳电池生产中普遍采用的方式,刀片的颗粒度和集中度对电池边缘有影响,不同颗粒度和集中度的刀片的划片参数也不同,也会影响太阳电池的转换效率。
近年来,随着课程理论研究的深入,出现了许多新的理念,校长课程领导就是其中之一。校长的课程领导作为一个新兴的研究领域,一种影响他人的活动,一个大家都能言说的话题,而其研究成果
父:李祖英,57岁,湖南郴州永兴县马田镇农民.李祖英16岁当学徒学做木工,出师后在乡下走家串户干了30年木工,之后又自办木工厂做家具干了10年,2001年12月来长沙开陶艺店.
期刊
韩国经济腾飞被视为奇迹。其奇迹主要体现为工业化的“压缩式”发展。即借助后发优势,通过技术引进、吸收、创立自主品牌,从而推动产业结构的升级和国民经济的现代化。在韩国
电子万能材料试验机是一种广泛使用的标准测试设备,在各类材料的质量检验、材料科学研究和实验教学环节都需要用它进行材料的力学性能测试。试验机测控系统具有强实时性、可扩
从最初理论的提出,到部分城市试点,再到全国范围内的推广,二十余年来,我国城镇住房制度改革对我国经济的增长起到了极大的推动作用。但是,当有目共睹的成就得到众多首肯的同