可解释的模糊聚类和分类的新方法研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:wangzixiaoxun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着机器学习算法和模糊理论的发展,模糊聚类和模糊分类算法受到了越来越多的关注。与传统聚类和分类算法相比,模糊聚类和分类算法具有模糊性和不确定性处理能力。并且,由于模糊理论的引入,增加算法的模糊可解释性(例如:语义可解释性),这进一步提升了模糊聚类和模糊分类算法的实用性。本文的研究对象为模糊聚类算法和模糊分类算法,具体是可解释的模糊聚类算法、传统的模糊分类算法和可解释的模糊分类算法。本文的研究内容分为两个方面:(1)对于模糊聚类算法,通过引入模糊算子,模糊化经典的密度峰值聚类算法DPC(Density Peaks Clustering Method),能够增加算法的模糊可解释性,同时提升其聚类性能;(2)对于模糊分类算法,具体选取三种典型的模糊分类算法作为研究对象,即模糊K近邻分类算法FKNN(Fuzzy K nearest neighbors classification method)、模糊随机森林算法FRF(Fuzzy random forest)和基于TSK(Takagi-Sugeno-Kang)模糊分类算法的集成算法。其中,对于FKNN分类算法,主要提升其分类性能;对于FRF和基于TSK模糊分类算法的集成算法,在保持其原有的语义可解释性的基础上,增加新的可解释性或者提升其可解释性,同时提升算法泛化性能和加快运行速度。本文的详细内容如下:(1)密度峰值聚类算法(DPC)的聚类性能严重依赖于基于内核的密度峰值计算方式,这就导致了以下两个问题:1)基于内核的密度峰值计算方式是否可以有效地处理数据集中的模糊和不确定的数据点;2)是否可以从软化分(模糊划分)的角度解释和重新定义密度峰的概念,从而增强聚类性能。针对以上两个问题,本文首先提出了模糊密度峰值的计算方式,从而提升聚类算法的模糊和不确定性的处理能力以及算法的灵活性,模糊密度值是由使用模糊算子(S模算子)耦合数据点与其邻居之间的模糊隶属度计算得到。然后,基于模糊密度峰值和DPC聚类算法的框架,提出了一种新的模糊密度峰值聚类算法:FDPC聚类算法。FDPC聚类算法通过调节合适的模糊参数,不仅提高了算法的聚类性能,同时也提升了算法的灵活性。实验结果表明,在大多数情况下,通过为模糊算子选择合适的模糊参数,FDPC聚类算法具有较好的聚类性能和可解释性。(2)传统模糊K近邻分类算法(FKNN)通过为所有测试样本设置相同k值对测试样本进行分类,将严重削弱FKNN分类算法的分类性能。因此,为了探讨为不同测试样本设置不同k值的可行性,本文提出了一种自适应近邻的模糊KNN分类方法,即A-FKNN分类算法(FKNN with adaptive nearest neighbors method),A-FKNN分类算法可以为每个测试样本学习一个独特的最佳k值。在训练阶段,A-FKNN分类算法首先对所有训练样本使用稀疏重构模型进行自表示,然后学习得到每个训练样本的最优k值,并将其作为这个训练样本的新标签,最后基于所有的训练样本及其相应的新标签构建决策树(即A-FKNN树),其中A-FKNN树的每个叶子节点存储相应的最优k值。在测试阶段,A-FKNN分类算法通过搜索A-FKNN树确定每个测试样本的最优k值,然后运行FKNN分类算法预测该测试样本。此外,为了提高A-FKNN分类算法的测试速度,提出了A-FKNN分类算法的快速版本(FA-FKNN分类算法)。在训练阶段,不同于A-FKNN分类算法,FA-FKNN分类算法构建了A-FKNN树的快速版本(FA-FKNN树)。与A-FKNN树不同,FA-FKNN树的每个叶子结点存储最优k值和训练样本子集。实验结果表明,A-FKNN分类算法和FA-FKNN分类算法在分类精度上都优于对比算法,而且FA-FKNN分类算法的测试速度更快。(3)为了提高模糊随机森林算法(FRF)在高维数据集上的泛化性能和运行速度,本文提出了一种增强的模糊随机森林算法,即基于双重随机性和动态字典复制的FRF算法(Enhanced fuzzy random forest by using doubly randomness and copying from dynamic dictionary attributes)。E-FRF除了保留FRF原先的随机性外,尝试在每棵模糊决策树的候选特征和最佳分裂特征的构造过程中,引入双重随机性来增加算法的泛化性能。此外,为了避免计算所有候选特征的新的模糊信息增益(NFG),部分特征的NFG值可以直接从动态生成的字典中复制得到。并且,从理论上证明了E-FRF的一致性。实验结果表明,在大多数高维数据集上,E-FRF具有与对比算法相当的泛化性能,而且,E-FRF的测试精度和运行速度方面都优于FRF。(4)基于常用的“从全局粗糙到局部精细”的认知行为和最新的发现“简单但可解释的线性模型应该是集成分类器的基本组成部分”,本文提出了一种新的混合分类器,称为H-TSK-FC(Hybrid TSK fuzzy classifier)及其残差区块学习方法RSL(Residual sketch learning)。H-TSK-FC本质上集成了线性分类器和模糊分类器,因此其同时具有基于特征重要性和基于语言的可解释性。RSL的核心包括以下内容:1)使用提出的基于稀疏表示的线性子分类器训练程序,快速生成一个基于所有训练样本的所有原始特征的全局线性子分类器,以识别和理解每个特征的重要性,并将分类错误的训练样本的输出残差分割成若干残差区块。2)在每个残差区块上并行生成可解释的TSK模糊子分类器,具体的,使用增强的软子空间聚类算法ESSC(Enhanced soft subspace clustering method)和最小学习机LLM(Least learning machine)分别生成模糊规则的语义可解释前件和后件,最后,通过栈式堆叠这些可解释的TSK模糊子分类器得到“局部精细”的结果。3)测试阶段,对所有子分类器的输出使用提出的最近标签投票策略得到最终预测,从而提高H-TSK-FC的泛化性能。实验结果表明,与现有的深度或宽度可解释的TSK模糊分类器相比,H-TSK-FC不仅具有额外的基于特征重要性的可解释性,而且具有至少可比的泛化性能、较快的运行速度以及较好的语义可解释性(需要更少的模糊规则)。
其他文献
干旱、低温是影响桃生产的重要因素,且随着全球气候变化,极端天气频发,对果树生产造成严重威胁。桃流胶病与环境胁迫关系密切,且发病广泛,危害严重。硅肥和钼肥对禾本科植物生长发育、病害防治作用及其机理的研究日益增多,但对桃生产的影响研究较少。因此,本实验以毛桃实生苗为试材,研究了干旱和低温胁迫下,硅和钼对桃实生苗生长及抗逆性的影响;以成龄桃树‘春雪’离体枝条和‘瑞蟠21’果实为试材,研究了硅对桃树流胶病
学位
漆酶(Laccase,EC1.10.3.2)是一种含铜的多酚氧化酶,利用氧分子作为电子受体可将多酚类、芳胺类、偶氮类化合物等多种底物转化为苯氧自由基和水,能够满足高效便捷和清洁环保的工业需求。因此,漆酶被广泛应用于木质素降解、废水处理、染料脱色、生物传感器等领域。目前,微生物共培养已经发展成为一种高效获取漆酶的重要发酵策略。通过大量菌株之间的匹配与测试,已获得了多个高产漆酶的共培养菌株对。已报道的
学位
随着电子产品向体积微型化、功能集成化和高频率方向的迅速发展,电子封装领域对Cu焊点的可靠性要求越来越高,开发高性能的Sn基无铅焊料以获得具有高强度、高精度及良好高温稳定性的Cu互连接头已势在必行。本研究针对传统Sn基焊料强度低、制取高强度低温焊点所需钎焊时间长等问题,设计并开发了Ni基合金泡沫增强Sn基复合焊料,研究了不同Ni-Cu合金泡沫结构及成分对Sn复合焊料结构及性能的影响;以此为基础,系统
学位
消费者在线购物时越来越期望立即或当天收到货物。有调查显示,交付速度占客户在线购买决策的52%。零售电商企业为了实现快速的最后一公里物流交付,不断地尝试突破性的方法提升物流速度。无人车配送正是在这样的背景下不断兴起。然而,尽管在技术上已经成熟,但无人车配送近年来并未真正实现大规模商用。因此,通过对无人车配送的运营管理优化来促进无人车配送实践的发展是一个重要的研究内容。为了实现快速交付,传统的集中交付
学位
AISI 321奥氏体不锈钢(以下简称321不锈钢)广泛用于核反应堆(以下简称堆)压力容器大型封头的制造。由于合金元素含量高、所用钢锭形大体重,此类封头产品在锻造时极易出现表面开裂、心部粗晶和混晶。这些问题直接影响超声波探伤和力学性能,严重时还会导致封头锻件报废,从而降低了生产效率、增加了生产成本,而且给核反应堆的服役安全也将带来巨大威胁。因此,组织性能控制困难、热加工性能普遍较差已成为制约大型核
学位
作为后现代文学艺术的样式之一,法国后现代电影以标新立异的审美意识在内容、形式等方面追求创新,其中的“东方意象”较之以往更富魅力和挑战性。“东方意象”是东西方多元文化相互碰撞的产物,是“他者”文化与“自我”文化互鉴的结晶。作为“镜像”的“他者”游走于虚构与现实之间,其深层功能在于透射和建构,将原文化中的固有价值体系进行解构,并对“他者”环境中“自者”的精神状态进行反思,引发对于“自者”状况的深度思考
学位
经济全球化使得我国企业面临着瞬息万变的市场环境和竞争挑战。从自然灾害、恐怖袭击等突发事件,到新冠疫情公共危机的持续蔓延,“黑天鹅”与“灰犀牛”事件的频发,使得企业外部生存环境变得更加复杂、动荡和不确定。而组织要想在复杂多变的商业竞争环境中保有立足之地,领导作为掌控组织核心权力和关键资源的代理人,在应对外部环境挑战,统筹组织发展等方面发挥着至关重要的作用。尽管魅力型领导、变革型领导等新兴领导理论受到
学位
“一带一路”倡议无疑是最重大的国际项目,该倡议的设立旨在推动广大沿线地区的经济发展。自2013年以来,已有近140个国家和32个国际组织签署了“一带一路”倡议。过去八年来,中国与“一带一路”合作伙伴之间的贸易总额超过9.2万亿美元,中国对沿线国家的直接投资累计超过1300亿美元,使“一带一路”倡议成为全球基础最广、规模最大的国际合作平台,连接欧洲、东亚和太平洋、中亚、南亚、中东和北非地区。最重要的
学位
本研究基于社会身份认同理论,明确舞蹈文献翻译伦理问题的由来:译者对自身社会群体身份的选择。舞蹈文献译者对自身社会群体身份的认同决定了他们的翻译话语,而他们的翻译话语也体现了他们的舞者身份;因此舞蹈文献译者应建构以舞者身份为中心的翻译话语。在此框架之下,本研究从文本的微观和舞蹈学科语境的宏观层面,考察译者以舞者身份参与翻译话语建构的过程,旨在提出以身份维度为核心的舞蹈文献翻译伦理建构。自“文化转向”
学位
移动通信技术和人工智能算法的飞速发展,促使交通系统正朝着智能交通系统的方向蜕变。从互联网到物联网,再到如今的车联网,万物互联的进程逐渐影响到了我们身边的每个设备。从大数据到推荐系统,再到如今的自动驾驶,万物智联的趋势也逐渐改变了我们的生活与出行。融合了最新通信与计算技术的智能交通系统,其网联化和智能化的全面升级已经取得了重要的进展。然而,当前交通系统仍然存在着一些问题,通信覆盖和质量、计算资源和安
学位