【摘 要】
:
数据质量在数据挖掘领域中的重要性越来越显著,其直接影响智能模型学习效率和应用效果。有关数据质量的异常检测及修正成为数据挖掘中重要环节之一。为了提高智能模型的识别
论文部分内容阅读
数据质量在数据挖掘领域中的重要性越来越显著,其直接影响智能模型学习效率和应用效果。有关数据质量的异常检测及修正成为数据挖掘中重要环节之一。为了提高智能模型的识别精度,增强其泛化能力,需要对用于智能建模的数据集中的对象类别异常进行检测和修正。在进行数据集和决策树形式化描述基础上,基尼指数增益率作为确定连续条件属性最优二分原则,采用递归算法生成叶节点中对象为同一类别的二叉决策树。利用信息熵评价剪枝后决策树的叶节点中对象的类别分布效果,从而实现数据集类别异常的类别修正。决策树的生成和剪枝本质上是完成基于基尼指数和信息熵的连续条件属性数据空间分割和合并类别修正。实验和实际应用证实了决策树生成和剪枝是数据集类别优化的有效方法。避免决策树过拟合、提高其泛化能力是决策树学习重要研究内容之一。决策树生成过程主要根据条件属性的分类能力确定分枝节点,而分类能力采用测度函数进行表示。通过采用Tsallis熵为决策树生成分枝准则,进行决策树完全生长。根据决策树分类精度,通过变化Tsallis熵,求解最优决策树。进一步采用左右子树均衡算法对决策树进行剪枝优化决策树。通过不同决策树分枝准则,实验证实了最优Tsallis熵具有更强表达分类能力。整合均衡剪枝算法,提升了决策树的泛化能力。所提决策树及其平衡剪枝优化方法在岩性识别应用及数据优化中取得了良好的效果。
其他文献
人类进入后现代社会,社会生活具有高度的流动性和不断加速的趋势,因而加速不断成为各学科聚焦的问题,在国内外的研究中引起不小反响。霍耐特高徒、关注社会加速问题的法兰克
马来西亚是个多元种族国家,其教育体制也与其他国家不同。马来西亚小学的教育体制有三大源流,分别为国民小学即国小、国民型小学即华小及印小。马来文作为官方语言是国小的主要教学媒介语,而华小、印小可以使用本身的母语为教学媒介语,前提是必须把国语和英语列为必修科。国小除了以国家官方语言马来语为教学媒介语亦提供其他语言的选修科目以满足不同族群的需求,理论上是各族群共同学习的理想场所。然而,因为中国经济起飞、非
随着传统能源的逐渐枯竭以及环境的急剧恶化,如何有效提升电能的环保性和经济性成为了亟待解决的问题。由此集成了分布式发电技术的接入终端—微电网系统应运而生。经济调度是微电网运行中的一个基本问题,在微电网的调度环节中,需要保证在系统安全稳定运行的前提下,合理配置发电单元出力,尽可能发挥分布式能源的最大经济效益,使目标微电网运行的社会福利最大化或发电成本最低。传统的电力系统集中式调度需要建设硬件水平较高的
低频通信在水下通信、地质勘探等特殊工作环境中有着不可替代的作用。低频噪声是影响通信质量的重要因素,必须得到有效抑制。低频噪声不同于高斯白噪声,而是具有非高斯色噪声的特性。现有研究对低频噪声的统计特性和信号处理做了初步讨论,但在实际应用中依然存在着问题。本论文结合实测数据,对低频噪声特性进行分析,并讨论低频噪声的稳健处理方法。主要工作可概括如下:1.实测数据处理分析基于实测噪声数据,借助传统处理方法
带有资源故障的资源受限多项目调度问题是经典资源受限多项目调度问题(RCMPSP)的扩展问题,并且在实践中普遍存在。由于这类问题通常比较复杂而且模型多样,所以很难建立统一的问题模型去求解,目前相关研究较少。本文以某一实际生产场景为背景,建立问题模型并研究求解算法,主要研究内容如下:首先,建立了一个带有计划型故障的资源受限多项目调度问题模型(RCMPSP-PRU),问题目标是最小化项目的最大完工时间。
自由空间光通信(Free Space Optical,FSO)以激光为载体在大气中传播信号,其安全性能较高,具有方向集中、不易干扰、无须频率许可等优点。FSO通信在传播过程中极易受大气湍流的影响导致通信质量降低、传播距离受限。另一方面,随着人们对无线通信的要求日益增强,增加射频(Radio Frequency,RF)链路时容易产生干扰及安全问题。混合RF/FSO系统可以充分利用射频链路和FSO链路
随着经济社会不断发展,城市化进程加速推进,交通拥堵问题应运而生,逐渐成为制约我国城市建设发展的瓶颈。从本质上讲,交通拥堵是城市在发展规划、整体建设、制度政策和交通结构等方面逐步累积的问题,在道路这一末端环节集中显现的结果。条条道路就如同城市的血管,而交通拥堵问题则像“血栓”,不仅会导致高昂的社会成本、经济成本、时间成本,还会让城市“生病”,严重困扰城市居民的日常生活,降低幸福感、获得感、满意度。如
船舶柴油主机是船舶动力装置的关键设备,如发生故障将会影响船舶运营,并可能直接或间接造成巨大的经济损失,甚至导致关键设备损坏。传统的柴油机维修保障往往依靠提前设定的计划保养或者是严重故障发生后的事后维修,缺乏预先诊断能力。热经济学故障诊断是一种广义诊断,以?成本为基础量化各种异常所导致的成本影响,具有计算简便、反应灵敏、准确性高等优点,对柴油机故障诊断具有重要意义。以6S50MC型船用低速二冲程柴油
在环境问题日趋恶化、能源危机日趋严重的情况下,电动汽车做为一种清洁型交通工具,具有广阔的发展前景。电动汽车的核心竞争力在于电池管理系统(Battery Management System,BMS),而电池管理系统中最重要的组成部分是能量均衡器。结合这一背景,本论文针对动力电池组均衡器及均衡策略展开研究,对目前各种常见的能量耗散型和能量非耗散型均衡器拓扑结构及均衡策略进行了分析,并提出了 4种新型能
需求分析和体系结构设计是软件生命周期中至关重要的两个阶段,对于软件产品的质量有着深远的影响。由于需求和体系结构处于异构知识空间,二者具有不同的知识表示形式,使得这