基于最近邻聚类的连续属性离散化算法研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:zhangcwx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是当今数据库和人工智能最活跃的研究领域之一,是知识发现(Knowledge Discovery in Databases,KDD)的核心,它的目的在于发现数据中隐藏的、潜在的、未知的和有用的知识,实质上是在大型的数据库中寻找数据间的普遍模式和规则。实际数据库中存在着较多的连续型数值,而现有的一些数据挖掘方法只能处理离散型数值,因而需要对连续型数值进行离散化。因此,连续属性离散化方法作为数据挖掘领域重要的基础性工作,直接影响到数据挖掘的质量。连续属性离散化已经成为数据挖掘理论中一个非常重要的研究方向,在某种程度上,连续属性离散化程度的好坏,将决定数据挖掘结果的优劣。本文根据最近邻聚类的算法思想,提出了一种基于最近邻聚类的连续属性离散化算法,其是一种基于整体属性的全局离散化,用两步走的策略来完成。本文所做的主要工作如下:第一、分析了连续属性离散化的课题研究背景,综述了连续属性离散化的国内外研究现状,并指出了连续属性离散化研究面临的挑战和不足。第二、分析了数据挖掘理论的相关知识,如数据挖掘的定义和数据挖掘的基本过程等。最重要的是在论文的第二章给出了连续属性离散化问题的数学描述、连续属性离散化的意义和重要性、连续属性离散化算法的目标、连续属性离散化算法的分类并分析了目前常见的连续属性离散化算法。第三、介绍了聚类分析的相关概念、聚类的过程及一些主要的聚类方法等。并重点分析了最近邻聚类算法。第四、研究了最近邻聚类和连续属性离散化的内在机理分析。最后,针对所提出的最近邻聚类算法,提出了最近邻聚类算法的几点改进措施,最终设计了一种基于最近邻聚类的连续属性离散化算法,并应用在一个天气信息决策系统和UCI机器学习数据库中。
其他文献
在直吹式制粉系统磨煤机启动/停止过程中,主蒸汽压力波动幅度很大,从而导致协调控制系统无法连续投入自动运行。针对这一工程问题,本文提出了一种控制策略——模糊控制与传统
室外单元(Out Door Unit,ODU)是卫星通信系统地球站的主要设备之一。在卫星通信链路上,其主要功能是对卫星信号的收发。目前在我国民航C波段电话地球站(Telephony Earth Station,TE
作业车间调度问题作为著名的机器调度问题之一,也是最困难的组合优化问题,在生产系统和工程应用中有着非常重要的意义,开发精确而有效的调度算法是近年来研究的热点。本文首
无线测控系统主要由现场监控单元、通信系统和监控中心组成。现场监控单元一般包含传感器、控制器和微处理器,主要负责完成信息的采集和响应监控中心发出的控制命令。通信系
学位
多目标进化算法(MOEA)擅长于求解高度复杂的非线性多目标优化问题(MOP),在过去三十年里,学术界引起了很大的关注,并得到快速的发展。MOEA通过一次运行得到优化问题的多个非支
超声衰减系数作为组织定征中的重要指标,一直受到国内外学者的广泛关注和研究。目前,对于弥散性病变类的疾病使用B超难以诊断,而实际上当组织发生病变时,其超声衰减系数会发生改变,偏离正常范围。因此,可以通过估计组织的超声衰减系数,来达到诊断疾病的目的。针对仿组织材料的超声声学特性,本文主要研究了超声衰减系数估计算法及其相关影响因素,主要工作有:1、针对常用的两种频率域衰减估计算法,本文从设备参数条件(中
实时三维超声心动图是研究小儿心脏运动特性的重要手段。本文利用实时三维超声心动图对小儿心脏二尖瓣瓣环进行了三维重建,并对二尖瓣瓣膜的运动进行了分析,分别求出前后瓣膜
全自动化学发光免疫分析仪是一种用于临床检验的分析仪器。为了打破国外对全自动化学发光免疫分析仪的垄断,近年来,国内众多科研院所已经开始自主研发。冶金自动化研究设计院
学位
利用Petri网对柔性制造系统进行设计一直是Petri网研究的重要方向。对于一个网模型而言,找到死锁节点,利用一定办法对其死锁节点进行控制,使其网变活,是一种良好的控制策略。在这篇文章里,我们提到了一种新的死锁检测方法,利用传递矩阵这一新的死锁查找办法,得到S~3PR网的死锁节点,然后结合P-不变式控制原理,对网添加控制库所和相应控制弧,使得S~3PR网最终是一个活的Petri网模型。这种新的死锁
科技的不断进步和网络技术的逐渐成熟促使工业监控领域对现场监控设备的性能和功能提出了新的要求和挑战。性能上要求实时性强、体积小、功耗低、可靠性高、环境适应性强;功能
学位