面向不确定性数据的决策树分类方法研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:huandakedi222
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的快速发展使社会各行各业都拥有了大量的数据,对大量数据进行分析处理,挖掘出其中隐藏的有价值知识意义重大。数据挖掘正是在这样的时代需求下产生并迅速发展起来的一门技术。分类是数据挖掘的其中一个重要的分支,它能够对各个行业提供良好的决策支持。决策树算法在数据分类领域占有重要的地位。但是所获得的数据中,有大量的数据具有不确定性的特点,经典的面向确定性数据的决策树算法无法从这类数据中挖掘出相应的信息,如何将面向确定性数据的决策树算法扩展为面向不确定性数据的决策树算法已经成为数据挖掘热点研究方向之一。本文针对不确定性数据的决策树算法展开了研究。
  在进行数据分类之前,一个必不可少的步骤就是对数据进行预处理。本文根据不确定性数据的特点建立起以概率密度函数为基础的不确定性数据的数学模型,以此数学模型为前提选取与算法相适应的数据预处理方法实现数据预处理的过程,并将这个过程形成一个完整的体系,即按照数据筛选、剔除异常值、分布标准化以及测量误差修正和误差处理这个过程完成对待分类的数据集进行预处理,使之能够更好地适用于面向不确定性数据的决策树算法。
  在决策树的构建过程中,属性选择和分裂点计算是决策树构建的核心工作。在属性选择的过程中,根据所建立的数学模型的特点引入了数据可视化的思想,并结合经典决策树的属性选择算法,提出了基于可视化的面向不确定性数据集的决策树算法,通过统计学的方法进行分裂点的计算,从数据的整体考虑均值与方差,不需要对连续值进行额外的处理。在分裂点计算的过程中,以不确定性数据分布的概率密度函数为基础,分别针对概率密度函数曲线无重叠区域和有重叠区域,提出了基于概率密度函数的分裂点计算方法,使决策树算法能够适用于不同特点的不确定性数据。
  仿真分析验证了算法所提出的基于可视化的面向不确定性数据集的决策树算法的可行性,本方法可以处理不确定性连续数据,而且对于存在缺失值的数据集具有一定的鲁棒性。
其他文献
在钢铁企业中,如何提升产品的质量和生产效率是一个非常重要的问题。在钢板的轧制过程中,由于多种原因会在钢板的表面形成不同缺陷,及时识别出缺陷对生产线进行生产安排和提升钢铁产品质量有着重要的作用。在钢铁企业仓库中堆放着不同规格的钢板,当进行再加工或出售时需要对钢板进行搬运操作,而搬运过程中对钢板物流位置的准确识别能有效提高工作效率。因此,研究钢板表面缺陷和物流位置的识别技术具有重要意义。  传统的钢板
学位
由于科学技术的飞速发展和现代化生产的快速进步,各个领域都在呈现向大型化、复杂化、高速化和智能化方向发展的新趋势,系统间各个部分的联系日益紧密,一旦发生故障,若不及时排查解决,可能会引发更多的故障发生,进而影响工业生产的正常进行,带来巨大的经济损失甚至较为严重的人员伤亡。此外,由于发生故障时的影响因素众多,单一传感器获得的信息是片面的,不能提供系统运行过程中的完整的状态信息,进而使得仅依靠单一传感器
学位
对于大型展览场馆,为了保证观众的参观质量与人身安全,照明系统的正常运行具有重要意义。然而照明系统中的控制设备、供电设备以及照明设备本身的可靠性有一定的限度,并且可靠性的提高会使成本急剧增加。为了既经济又可靠的解决上述问题,通常会在系统的设计和应用中采用冗余技术。  冗余技术是实际工程中为达到系统的可靠性要求而采用的主要手段之一,如何合理的预计、评估、分析冗余系统的可靠性是冗余系统设计的核心任务。传
学位
现实世界中,很多生产过程中测量到的数据往往是不精确的,如科学试验或工业过程等,如何表述不精确信息并对其建模是过程研究中的重要问题。粒是一种新概念,主要用于描述不精确信息。它衍生出许多方法,其中集合论和区间分析被证明具有很好的应用效果,得到了广泛研究;区间神经网络是目前解决不精确数据建模的一种有效方法,它利用区间数表示不精确数据,利用神经网络完成建模的任务。随机权值神经网络采用了输入层权值随机给定、
大飞机的研制对风洞流场的控制精度提出了近乎苛刻的要求,应用合适的控制方法对流场进行精确调节,是确保风洞流场品质的关键。预测控制基于预测的未来时刻控制偏差优化控制律,有能力实现高精度控制。因此,本文以2.4m暂冲型跨声速风洞为对象,研究应用预测控制实现高精度流场控制的方法。  在分析暂冲型跨声速风洞系统的非线性、时变、时滞、耦合等特点后,结合控制系统结构,考虑攻角变化引起的扰动,设计了风洞流场的预测
学位
具有反向特性的非最小相位系统会给常规的基于误差的PID控制器设计带来特殊困难,而在自动化教学中对非最小相位概念的描述多偏重于数学理论,因而非最小相位系统及其控制问题一直是自动化教学中的难点和重点之一。本文在辽宁省冶金综合自动化工程实验室建设项目的支持下,以空气加热混合过程为物理对象,设计和开发了具有与工业环境高度一致的非最小相位特性的空气加热混合过程控制教学实验平台,通过合理构造实验条件,搭建了具
表面肌电信号(sEMG)是一种新型的控制源,它包含中枢神经系统的控制信息,蕴含丰富的运动信号,可以识别出人体运动的意图,应用于所研制的五自由度外骨骼上肢康复机器人,实现了对其意图控制。本文研究表面肌电信号特征提取方法,结合康复机器人系统的需要,其重点研究工作如下:  首先,本文对sEMG机理分析,根据sEMG的特性结构搭建采集系统。针对采集过程中的运动伪迹噪声,设计了巴特沃斯高通滤波器滤波去噪。 
在电熔镁炉的熔炼过程中,一方面,由于熔炼过程机理复杂难以建立数学模型,三相电极之间具有强耦合性,交流电弧具有很强的非线性,另一方面,由于工业现场环境恶劣,操作员大多依靠经验进行操作并且劳动强度高,导致生产过程能耗高、异常工况频繁发生。目前,我们主要是依靠操作人员观察三相电极电流值的波动情况和现场熔炼设备的运行状态来进行电熔镁炉的异常工况识别,由于操作人员大多依靠经验操作,难以在夜间长时间保持高度集
学位
随着科学技术的快速发展和计算水平的快速提高,对控制系统的要求也日趋严格,智能控制技术已经成为控制领域不可或缺的工具,越来越受到科研人员的重视。内模控制是一种新型的智能控制理论,在工业过程控制领域具有很强的鲁棒性,同时设计结构简单,在线整定方便,因此近年来的发展尤为迅速。与此同时,内模控制与其他智能算法的联合也是最近的一种研究趋势,其控制效果也较为明显。同时随着工业控制系统中数学建模水平的提高,很多
学位
电熔镁砂是一种熔点高、抗氧化性和抗渣性强的高级耐火材料,被广泛用于多个领域,其主要生产设备是三相交流电熔镁炉。电熔镁炉属于矿热电炉的一种,是典型的高耗能设备,熔炼过程中合理的降低产品单吨能耗将直接为生产企业带来可观的经济效益。为了实现在保证产量的前提下尽量降低产品单吨能耗的控制目标,电熔镁炉控制系统需要能够实现电流优化设定、电流跟踪控制等复杂控制功能。由于熔炼过程具有强耦合、强非线性等综合复杂特性