粒计算分类知识发现算法及其应用

被引量 : 0次 | 上传用户:rui_lucky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类正在步入一个以知识生产、应用为最重要因素的知识经济时代。以知识发现为核心的智能信息处理技术在知识的生产过程中具有越来越重要的作用。分类具备一般知识发现的数据预处理、数据挖掘、模型评估和知识表示的基本流程,是一项重要的知识发现任务。由于分类的广泛应用及其在化学化工领域的重要意义,对分类方法展开研究不仅可以促进数据挖掘技术的发展,还能极大地开拓化学化工领域中知识发现的应用前景。目前,分类知识发现的研究和技术已有长足进步,各种挖掘方法层出不穷,但一些有待研究的问题也日趋突出。尤其在化学化工领域,由于采集和积累的数据往往具有多因子、非线性、高噪音和非均匀分布等特点,常规的分析和处理方法不仅耗时,而且难以有效地挖掘和发现其中所隐含的知识,相关的分类知识发现方法和技术有待改进和发展,对之展开深入的研究,对促进化学化工学科的发展具有重要的意义,也会产生巨大的经济价值。粒计算是信息处理的一种新的概念和计算范式,覆盖了所有与粒度相关的理论、方法、技术和工具。粒计算的基本思想是模拟人类智能的特点,在求解复杂问题时,通过选择合适的粒度,降低问题求解的难度,有助于找到一种较好的解决方案。粒计算原理为知识发现的研究提供了新途径。但是,目前有关粒计算的研究大多还以理论研究为主,粒计算的应用研究较少,尤其在化学化工领域,更鲜见文献报道。本文归纳提出了粒计算用于知识发现的四项基本原理,利用此原理,对当前分类知识发现方面的若干挑战问题进行了研究,提出了相应的策略和方法,以用于化学化工领域中的相关问题。本文的主要研究工作和成果可归纳如下:1.粒化和聚类是一种对知识进行总结概括的方法,聚类生成的类刻画了数据所蕴涵的类知识。聚类分析,是软科学研究的重要的基础性方法,也是一种有效的手段。自适应共振(Adaptive Resonance Theory, ART)网络ART2用于聚类,具有许多优点。同时也存在对输入的渐变模式不敏感,抗噪音性能有限的缺点。为此,本文提出了改进的自适应共振网络(ART2 with Enhanced Triplex Matching mechanism, ETM-ART2),加强了内部检测机制,以提高ART2网络的性能,对橄榄油样本进行聚类分析试验,其聚类性能优良,尤适用于海量数据的聚类问题。ETM-ART2还可为分类问题构建信息粒,有助于知识发现,并提高分类性能。2.粒的构建是应用粒计算的基本步骤之一。本文根据粒度求解近似原理,提出了采用ART网络构建信息粒,可为分析对象方便、快速地建立合适的信息粒;又由GrC(Granularcomputing, GrC)问题简化原理,提出了基于信息粒的分类知识发现的求解方案。开发了两个算法:其一,基于信息粒的模糊分类知识发现算法(Information Granulation based Fuzzy Classification Knowledge Discovery Method, IG-FCKDM);其二,基于粒的关键特征分析(Key Feature Analysis based on Granulation, KFAG)、由C4.5实施分类规则挖掘的算法KFAG-C4.5。IG-FCKDM侧重于求解非均衡两分类问题和分类误差敏感问题,即分类判定错误可能带来巨大损失。它采用Fuzzy ART构建信息粒,继而通过模糊处理,提取分类规则。对疾病诊断的试验表明,IG-FCKDM处理此类问题效果较好,且其预测正确性和可信度对用户有更重要的意义。KFAG-C4.5可用于一般分类问题和多类非均衡分类问题。它采用ETM-ART2构建信息粒,再进行本文提出的基于粒的关键特征分析,并将各属性合理地划分为具有较强的类别区分能力的若干子属性,子属性数不致过多。使信息粒由子属性描述,并以离散值0或1表示。便于最后采用C4.5实施分类规则挖掘。对玻璃两分类和多类非均衡问题的试验表明,KFAG-C4.5具有较好的分类识别能力。IG-FCKDM和KFAG-C4.5这两个算法挖掘所得知识虽然表现形式有所不同,但都很简洁,可理解性好,易于各类专业人员分析,且较好地解决了非均衡数据的分类问题。3.集成学习常可提高单个分类器的性能,随着研究的深入,选择性集成学习逐渐成为研究热点。当前,基于随机优化算法的选择性集成算法,大多以泛化误差为目标,基本忽略了个体分类器本身的特性,尤其是差异性度量。这些方法也取得了一些成果,但计算复杂度较高,效率偏低。为解决个体分类器差异性度量的难题,本文基于GrC问题的等价原理,将选择性集成问题转换到较简单的关联空间,研究了一种简单而高效的选择机制,开发了基于知识粒、兼顾正确率和差异性的选择集成(Correctness and Diversity based Selective Ensemble, CDSE)算法。将其用于毒性作用机制的分类试验,其性能优于集成算法Bagging、AdaBoost.M1,以及单个C4.5分类器。CDSE从优选个体分类器的角度出发,为提高集成分类的泛化性能和效率提供了有效的解决方案。4.在集成分类器的构建生成和预测判定这两个层面上,提出了自适应的新思路,将CDSE拓展为自适应集成(Correctness and Diversity based Adaptive Selective Ensemble, CDASE)学习算法,进一步提高了集成分类的泛化性能。CDASE针对每一类别,自适应地生成特定适用的集成分类器,组合为集成分类器组AE-Group,其中各个集成分类器间存在包容性,故其占用的计算资源甚少,有效地减少了存储空间和计算时间。AE-Group又以自适应方式,即从集成分类器组中选用最适合的集成分类器对检测数据实施分类判定。用于多种模式分类问题的试验表明,CDASE算法以较少的个体分类器,即能实现较好的集成学习效果。与其它多种算法相比,CDASE具有良好的泛化性能,更为高效,且稳定性好。CDASE算法突破常规单一集成学习机适用性较窄的局限性,为进一步提高集成学习的泛化能力提供了新的思路。
其他文献
随着金融业的发展,银行自助设备得到越来越多的应用。自助设备的种类不断增加,功能更加强大,在金融领域发挥重要作用。如何管好用好这些自助设备,已成为各银行的一个重要任务
随着计算机的普及、网络的广泛应用,计算机信息技术已经作为一种信息传播的手段越来越广泛的进入到人们的工作和生活中了。从世界范围内的信息交流来看,计算机技术的相关技术
目前我国的中小型物流企业占物流行业95%以上,是我国经济发展的巨大动力。处于快速发展期的中小型物流企业亟需要实现自身信息化,应对企业快速变化的业务需求,来帮助企业高效
本文试图把格莱斯的合作原则运用于分析电影《泰坦尼克号》。格莱斯合作原则是说话者和听话者在对话当中遵循的总的规则。然而为了表达话语的隐含意义即会话含义,人们往往会
女硕士在学历、社会分层上处于优越地位,但由于传统婚配模式等影响,她们在婚姻大事上却一直尴尬,面临许多问题。因此,对未婚女硕士婚恋观进行研究,探究其影响因素,对促进女硕
随着新媒体的快速发展,国内电视节目逐渐吸收新媒体技术元素来打造全新的电视节目播出形式。电视节目创新便成为了电视节目实践的一项系统工程。在复杂激烈的媒体竞争下,为了
本文探讨无锡地铁2号线正线电客车司机驾驶过程遇到噪音所产生诸多因素,对噪音的检测,分析及防治措施。
依信用证独立原则,信用证一旦开立,则完全独立于买卖合同,法律适用上信用证适用UCP500,买卖合同适用买卖公约、买卖法律、合同法等.但买卖合同却不能独立于信用证.相反,信用
电子负载作为一种常规的电子设备在各种电子产品的电源性能测试过程中起着重要的作用,电子负载监控系统对整个电子负载测试系统实现综合管理,其优劣很大程度影响到电源测试工
在总结了相关研究成果的基础上,本文采用了车辆维修性的系统工程分析方法,对维修性建模与分析评价做了研究。本文运用了维修性相关理论,采用故障分布方法分析了车辆的维修性