基于决策树的数据挖掘方法在化学模式分类中的应用

来源 :浙江大学 | 被引量 : 0次 | 上传用户：cmudh134

【摘要】

：

随着计算机技术和现代测试分析技术的发展,在化学化工领域积累了大量的数据。数据挖掘技术的产生和发展为从这些数据获取有用知识提供了有力的工具。数据挖掘工具的有效性,总

【作者】

：

李琳

【出处】

：

浙江大学

【发表日期】

：

2005年期

【关键词】

：

数据挖掘决策树离散化属性选择化学模式分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机技术和现代测试分析技术的发展,在化学化工领域积累了大量的数据。数据挖掘技术的产生和发展为从这些数据获取有用知识提供了有力的工具。数据挖掘工具的有效性,总是与各个领域的数据特点紧密的结合在一起。本文针对化学模式分类中的数据具有高维、复共线性和带有噪音的特点,利用决策树及其预处理过程,对连续属性的离散化、属性筛选、规则获取、化学模式分类建模等进行了研究,并介绍了各种数据挖掘方法和决策树的基本理论,以及化学化工数据挖掘所面临的问题。全文主要内容如下:(1) 由于化学分类数据集大多为连续型数据集,若要提高决策树分类器的性能,须先将连续型数据离散化,以方便进一步的处理过程。本文系统阐述了连续属性离散化的原理、方法以及国内外的研究现状。通过分析各种算法的特点和适用性,针对实际化学数据特点,选择最小描述长度划分法(MDLP)对数据进行离散化。与其它方法相比,MDLP算法稳定、离散化效果令人满意。(2) 大多数数据集都包含冗余属性,这些冗余属性的存在不仅增加数据处理的工作量和复杂程度,而且会干扰最终的分类结果,影响分类的准确程度。本文将属性选择的概念引入化学数据分析中,介绍了属性选择的基本原理,特点以及各种方法。通过考虑各种方法的使用条件和化学分类数据的特点,使用LasVegas Filter(LVF)算法对离散型数据进行选择。结果证明:该过程能够从原属性集中筛选出与分类联系最紧密的属性子集,简化了计算过程,同时也在一定程度上提高了分类准确性。(3) 介绍了决策树方法的基本原理和几种常用决策树算法。详细讨论了C4. 5算法特点,并针对具体的实例建立C4. 5决策树。结果证明该方法分类性能良好。与常用的神经网络方法相比,由决策树发现的分类规则表达方式直观,便于理解,生成速度也非常快。和统计分析方法相比,决策树不依赖属性值的分布或属性独立性的假设,在实际应用中也比一般的统计分析方法更健壮。(4) 决策树方法可从大量数据中挖掘出潜在的分类知识,并具有简洁直观的表达形式,易为专业人员理解和分析。对于较难处理的连续属性,本文提出了浙江大学硕1学位论文基于预处理的决策树模型。先对连续属性离散化,少个作筛选,剔除)乙余数据后,再L自C4.5方法构建决策树,其分类模型具有良好的预报性能,适川J几化学分类模式的挖掘,两个实例表明应用效果令人满意。关键词:数据挖掘,决策树,离散化,属性选择,化学模式分类心

其他文献

金针菇菌渣不同处理方式对环境影响

废置和燃烧是目前处理金针菇菌渣的主要途径,为了探究这2种处理方式对环境的影响,本研究以阿坝州红原县废弃金针菇菌渣为研究对象,利用傅里叶红外光谱、GC-MS等方法对废弃金

期刊

金针菇菌渣红原县重金属燃烧废气

高校图书馆阅读推广中馆员的角色定位

近年来,在我国社会经济快速发展,科学技术水平不断提高,高校图书馆不仅仅是文献资源的存储中心,更是传播文化的有效工具,不仅为读者提供了文献查阅、资源筛选服务等,同时满足

期刊

高校图书馆阅读推广馆员角色定位

大豆单株荚数与主要农艺性状关系的分析

本试验采用适合黑龙江省第四积温带种植的21个大豆品种(系),通过田间调查、室内考种,进行关联度分析、相关和通径分析,得出单株荚数与百粒重、每荚粒数、主茎节数、生育前期

期刊

大豆单株荚数农艺性状关联度相关分析

魏收散文创作论析

魏收是北齐散文成就最高的作家。关于魏收散文,虽有学人对其关注,但多言其史传散文《魏书》。其散文创作主要包括赋作、史传散文以及诏文、册文、封禅、表启、奏议、移文、书

期刊

魏收散文赋作碑志《魏书》华美

军地合力打造城市名片——河北省保定军分区参与创建文明城市活动纪事

<正>伴随着创建全方位文明城市,全力打造"实力保定、魅力保定、和谐保定"的强劲号角,河北省保定军分区积极响应市委、市政府的号召,组织发动民兵扎实开展了"四创"活动,即在贫

期刊

军分区民兵整组人武部河北省城市名片

冲击矿压危险的电磁辐射监测技术

电磁辐射现象是受煤体变形破裂的结果。现场观测表明 ,工作面周围不同位置 ,电磁辐射信号是不同的 ,煤体中的应力越高 ,变形破裂越强烈 ,电磁辐射信号越强。同时给出了冲击矿

期刊

冲击矿压电磁辐射危险性预测监测技术

合成孔径雷达成像模拟仿真系统

合成孔径雷达(SAR: Synthetic Aperture Radar)是二十世纪五十年代出现的一种成像雷达体制。经过四十余年的研究，SAR的成像理论和实现技术得到了很大发展。本文以发展合成

学位

合成孔径雷达成像算法成像模拟仿真系统参数估计

双歧杆菌的分离与鉴定

研究了适宜的双歧杆菌分离方法，从婴儿、成人粪便中分离到３６株疑似双歧杆菌，经过属和种的系统生化鉴定，确认为青春双歧杆菌（Ｂｉｆｉｄｏｂａｃｔｅｒｉｕｍａｄｏｌｅｓ－ｃｅｎｔｉｓ）２０株和长双歧杆菌（Ｂｉｆｉｄｏｂａｃｔｅｒｉｕｍｌｏｎｇｕｍ）６株。

期刊

双歧杆菌分离鉴定

东安公司现场管理的综合研究

生产现场管理是企业生产第一线的综合管理，是企业管理的重要组成部分。企业生产现场管理水平是体现企业实力的重要因素之一。通过对其进行综合评价，企业能够全面掌握当前现场管

学位

生产现场管理评价指标体系生产现场综合评价

中药药物绷带治疗软组织损伤的实验及临床研究

目的：研究中药药物绷带抗炎、镇痛作用和对皮肤刺激性、皮肤急性毒性、皮肤过敏反应以及应用该绷带治疗急性软组织损伤的病理和临床疗效。方法： 1，使用普通绷带组，氢

学位

药物绷带抗炎镇痛毒性病理临床研究

基于决策树的数据挖掘方法在化学模式分类中的应用

与本文相关的学术论文