基于类别特征表示边界域处理的三支决策模型研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:A88833238
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在“爆炸式”的大数据时代,实际生活中所产生的数据往往都具有质量偏低的特点,尤其在进行数据决策处理时,会产生很多不确定性问题。因此,在大数据和人工智能背景下,如何挖掘有效信息并正确处理这些不确定数据是当下数据研究者们的重要研究方向之一。针对该问题,相继出现了很多处理相关问题的方法和理论,其中三支决策理论(Three-way decision theory)是处理不确定性问题的热门研究方法之一。三支决策的核心思想是将确定样本划分到对应的正域、负域,同时将不确定样本暂时划分到边界域中。针对传统二支决策理论在数据分类过程中只进行“接受”和“拒绝”的情况,三支决策为不确定数据增加了第三种决策选择,分类决策结果不再只有“接受”与“拒绝”两个选择,而是对这部分数据进行延迟决策。也就是当数据信息不足以支持进行接受决策或者拒绝决策时,则被暂时划分到边界域中,采取延迟决策,待后续挖掘更多合适信息时,再做进一步决策处理。因此,在数据决策过程中,三支决策理论可以有效的处理明确与不明确样本,并且可以很好解决具有不确定信息的数据决策问题。但是在如何利用确定数据样本指导不确定数据求解方面,还需要进一步深度研究。为了更好的决策,本文从明确的类别数据出发,挖掘有用信息指导不确定数据求解。将三支决策理论思想与最小覆盖算法(MinCA)结合,形成最小覆盖三支决策模型,其中MinCA算法的最大优势和特点就是不需要任何参数,直接根据数据样本到覆盖中心的距离与覆盖半径的大小比较,从而判断数据样本的类别归属,形成MinCA的三个域:正域、负域、边界域(POS、NEG、BND);然后,基于模糊商空间理论,在正域和负域中,分别建立模糊等价关系,得到不同类别的特征表示,选择最合适的特征表示组合,用来处理拥有不确定数据的边界域,从而可以提高数据总体的分类准确率。本文的主要工作内容包括以下三点:(1)本文首先阐述不确定数据分类、三支决策在数据分类方面的研究以及在边界域处理方面的研究,重点分析了三支决策在边界域处理上的作用和优势;然后,基于三支决策理论,详细介绍了基于最小覆盖算法的三支决策分类模型,展示了三个域的划分过程;接着,介绍了模糊商空间理论,从商空间的基本定义和原理出发,重点突出了如何建立模糊等价关系,为本文有关建立特征表示部分打下坚实的理论基础;最后,针对数据的分类问题,本文选择准确率(Accuracy)作为评价指标,并给出了详细的介绍和解释。(2)针对边界域样本缺乏足够信息的问题,本章提出了基于分层递阶特征表示的三支决策分类算法(HFR-TWD)。首先,使用最小覆盖算法,并结合三支决策思想,将数据分为拥有明确信息的正域和负域,以及存在不确定问题的边界域;接着通过使用模糊商空间理论(FQST)处理明确的正域和负域样本,构建对应类别的模糊等价关系矩阵,通过截集的处理,得到对应的多层特征表示;最后,通过边界域样本进行验证的方式获得最优层的特征表示,进一步处理不确定的边界域样本,形成最终的二分决策结果。实验结果表明该算法可以有效地处理不确定的边界域样本,相对于其它对比算法,可以有效地提高数据的分类准确率。(3)针对HFR-TWD算法过程中挑选出的最优层特征表示,从粒度角度分析,发现该最优层与上下层特征表示之间差异性较大,不具有连续性,并且不具有细粒度下最优的问题。因此,本文提出了自适应的分层递阶特征表示的三支决策分类算法(AH3)。首先,将三支决策理论思想结合最小覆盖算法,形成最小三支覆盖算法(MinCA),将明确数据划分到具有类别明确的正域和负域中,同时将不确定数据划分到边界域中;接着,基于模糊商空间理论(FQST),分别处理明确的正域和负域样本构建模糊等价关系,过程中,为了加强特征之间的关联联系以及删除弱特征,我们引入了方差,并于互信息相结合,从而获的相关度更高的多层特征表示;然后,通过边界域验证分别得到正域和负域的准确率最高的特征表示层;最后,从粒度大小角度出发,对准确率最高所属的特征表示层进行上下层粒度分解,并自适应选择更加适合的特征表示,作为最终处理边界域样本的特征表示层。实验结果表明该算法获得的特征表示可以更有效地处理边界域样本,同时进一步提高了数据整体的分类准确率。
其他文献
CoMP(Coordinated Multipoint,CoMP)技术是抑制小区间干扰,改善边缘用户的通信质量,提高系统整体性能的有效手段,是5G通信系统中的关键技术之一,目前已经成为了无线通信系统中的研究热点。当考虑上行链路CoMP系统的实际应用时,必须要在物理层中联合考虑CoMP系统中多个接收基站之间的信号处理技术,比如,分集接收技术。在未来的通信系统中,基站的部署会更加密集,而且随着大规模天
随着运动捕捉技术的兴起、发展和完善,快速有效的获取高精度运动数据深受大众青睐。运动捕捉数据作为一种新型的多媒体数据,在计算机动画、影视特技、医疗康复等许多领域中被广泛应用。然而,即使是使用专业运动捕捉设备系统(如Motion Analysis系统等)采集到的运动数据,仍然会不可避免地含有噪声、缺失值和异常值等问题。因此,如何高效快捷对已有运动捕捉数据恢复成真实精准的运动数据,已经成为当前运动捕捉技
随着物联网时代的到来,为了实现各种智慧应用,如智慧工业、智慧交通等,大量低功耗通信设备被广泛部署和应用。通常,物联网设备都采用由嵌入式电池供电,来支撑完成对环境感知,
大气压氦氧放电作为一种常用的产生活性氧粒子的方式,一直是低温等离子体领域的研究热点。但纵观整个大气压氦氧放电的研究,射频容性耦合放电和大气压等离子体射流领域的研究最多,对于介质阻挡氦氧放电研究也是集中在直流脉冲驱动领域,交流驱动介质阻挡放电和直流驱动微等离子体放电领域研究较少,人们对其放电机理的认识还有很大不足,需进一步研究。以一维流体模型为研究手段,对大气压交流驱动氦氧介质阻挡放电基本放电性质进
人造麝香常作为香味剂而存在于日化用品中,与人们的日常生活息息相关。但人造麝香在给人们带来感观愉悦的同时,也给人类带来的健康危害;而且人造麝香具有较强的生物富集作用
图像配准作为当下图像处理中一大热门研究方向,已被广泛地应用于诸如遥感、医学、计算机视觉等领域。其作为图像拼接和融合的前置技术,他的精度直接影响着后续相关领域的处理精度。而在遥感处理领域,由于遥感图像存在的多源、多时态、多视角以及超高分辨率带来的问题,对配准方法的性能又提出了更高的要求。本文主要针对遥感图像的配准算法做了如下研究:(1)本文系统的研究分析了图像配准的在目前发展现状,对其预处理的主要过
党的十九大提出要把“高质量发展”作为未来的经济发展目标。这个要求是符合我国现状的。我国现在进入了经济新常态,经济增长速度减缓,经济质量还有待提高。而且作为现代产业部门劳动力重要组成部分的农民工健康状况令人担忧。因此,研究农民工健康人力资本投入对经济质量有何影响是一个有意义的话题。在这个背景下研究经济增长质量是很有意义的。于是本文基于以往研究文献,经过思考,不再将全要素生产率作为经济增长质量的一个维
1912年,中华民国临时政府教育部颁布了壬子学制。为适应新学制,商务印书馆出版了《共和国教科书》。《共和国教科书·新国文》共28册,包括初小、高小的教科书14册及与之相配套的《新国文教授法》14册。《新国文教授法》是与《共和国教科书·新国文》配套的教学指导用书,它以单篇课文的讲授指导为主,分为“本文”“教具”“教授之注意要项”“应用”四部分,自第三册起,增“参考”一类。其中“应用”分为“语言”“文
定向凝固是生产优质特厚板坯的工艺方法,相较传统钢锭生产有一定的质量优势,相对电渣重熔工艺成本较低,对其凝固过程及组织进行控制是实现该工艺工业化生产的关键。本文针对
分数阶微分方程在水文学,信号处理,物理学,生物化学,控制理论等领域有广泛应用,经过近几十年的深入探索,其相关理论非常丰富,有大量研究成果.由于许多分数阶微分方程解析解的