论文部分内容阅读
随着计算机技术和现代测试分析技术的发展,在化学化工领域积累了大量的数据。数据挖掘技术的产生和发展为从这些数据获取有用知识提供了有力的工具。数据挖掘工具的有效性,总是与各个领域的数据特点紧密的结合在一起。本文针对化学模式分类中的数据具有高维、复共线性和带有噪音的特点,利用决策树及其预处理过程,对连续属性的离散化、属性筛选、规则获取、化学模式分类建模等进行了研究,并介绍了各种数据挖掘方法和决策树的基本理论,以及化学化工数据挖掘所面临的问题。全文主要内容如下:(1) 由于化学分类数据集大多为连续型数据集,若要提高决策树分类器的性能,须先将连续型数据离散化,以方便进一步的处理过程。本文系统阐述了连续属性离散化的原理、方法以及国内外的研究现状。通过分析各种算法的特点和适用性,针对实际化学数据特点,选择最小描述长度划分法(MDLP)对数据进行离散化。与其它方法相比,MDLP算法稳定、离散化效果令人满意。(2) 大多数数据集都包含冗余属性,这些冗余属性的存在不仅增加数据处理的工作量和复杂程度,而且会干扰最终的分类结果,影响分类的准确程度。本文将属性选择的概念引入化学数据分析中,介绍了属性选择的基本原理,特点以及各种方法。通过考虑各种方法的使用条件和化学分类数据的特点,使用LasVegas Filter(LVF)算法对离散型数据进行选择。结果证明:该过程能够从原属性集中筛选出与分类联系最紧密的属性子集,简化了计算过程,同时也在一定程度上提高了分类准确性。(3) 介绍了决策树方法的基本原理和几种常用决策树算法。详细讨论了C4. 5算法特点,并针对具体的实例建立C4. 5决策树。结果证明该方法分类性能良好。与常用的神经网络方法相比,由决策树发现的分类规则表达方式直观,便于理解,生成速度也非常快。和统计分析方法相比,决策树不依赖属性值的分布或属性独立性的假设,在实际应用中也比一般的统计分析方法更健壮。(4) 决策树方法可从大量数据中挖掘出潜在的分类知识,并具有简洁直观的表达形式,易为专业人员理解和分析。对于较难处理的连续属性,本文提出了浙江大学硕1学位论文基于预处理的决策树模型。先对连续属性离散化,少个作筛选,剔除)乙余数据后,再L自C4.5方法构建决策树,其分类模型具有良好的预报性能,适川J几化学分类模式的挖掘,两个实例表明应用效果令人满意。关键词:数据挖掘,决策树,离散化,属性选择,化学模式分类心