论文部分内容阅读
在“爆炸式”的大数据时代,实际生活中所产生的数据往往都具有质量偏低的特点,尤其在进行数据决策处理时,会产生很多不确定性问题。因此,在大数据和人工智能背景下,如何挖掘有效信息并正确处理这些不确定数据是当下数据研究者们的重要研究方向之一。针对该问题,相继出现了很多处理相关问题的方法和理论,其中三支决策理论(Three-way decision theory)是处理不确定性问题的热门研究方法之一。三支决策的核心思想是将确定样本划分到对应的正域、负域,同时将不确定样本暂时划分到边界域中。针对传统二支决策理论在数据分类过程中只进行“接受”和“拒绝”的情况,三支决策为不确定数据增加了第三种决策选择,分类决策结果不再只有“接受”与“拒绝”两个选择,而是对这部分数据进行延迟决策。也就是当数据信息不足以支持进行接受决策或者拒绝决策时,则被暂时划分到边界域中,采取延迟决策,待后续挖掘更多合适信息时,再做进一步决策处理。因此,在数据决策过程中,三支决策理论可以有效的处理明确与不明确样本,并且可以很好解决具有不确定信息的数据决策问题。但是在如何利用确定数据样本指导不确定数据求解方面,还需要进一步深度研究。为了更好的决策,本文从明确的类别数据出发,挖掘有用信息指导不确定数据求解。将三支决策理论思想与最小覆盖算法(MinCA)结合,形成最小覆盖三支决策模型,其中MinCA算法的最大优势和特点就是不需要任何参数,直接根据数据样本到覆盖中心的距离与覆盖半径的大小比较,从而判断数据样本的类别归属,形成MinCA的三个域:正域、负域、边界域(POS、NEG、BND);然后,基于模糊商空间理论,在正域和负域中,分别建立模糊等价关系,得到不同类别的特征表示,选择最合适的特征表示组合,用来处理拥有不确定数据的边界域,从而可以提高数据总体的分类准确率。本文的主要工作内容包括以下三点:(1)本文首先阐述不确定数据分类、三支决策在数据分类方面的研究以及在边界域处理方面的研究,重点分析了三支决策在边界域处理上的作用和优势;然后,基于三支决策理论,详细介绍了基于最小覆盖算法的三支决策分类模型,展示了三个域的划分过程;接着,介绍了模糊商空间理论,从商空间的基本定义和原理出发,重点突出了如何建立模糊等价关系,为本文有关建立特征表示部分打下坚实的理论基础;最后,针对数据的分类问题,本文选择准确率(Accuracy)作为评价指标,并给出了详细的介绍和解释。(2)针对边界域样本缺乏足够信息的问题,本章提出了基于分层递阶特征表示的三支决策分类算法(HFR-TWD)。首先,使用最小覆盖算法,并结合三支决策思想,将数据分为拥有明确信息的正域和负域,以及存在不确定问题的边界域;接着通过使用模糊商空间理论(FQST)处理明确的正域和负域样本,构建对应类别的模糊等价关系矩阵,通过截集的处理,得到对应的多层特征表示;最后,通过边界域样本进行验证的方式获得最优层的特征表示,进一步处理不确定的边界域样本,形成最终的二分决策结果。实验结果表明该算法可以有效地处理不确定的边界域样本,相对于其它对比算法,可以有效地提高数据的分类准确率。(3)针对HFR-TWD算法过程中挑选出的最优层特征表示,从粒度角度分析,发现该最优层与上下层特征表示之间差异性较大,不具有连续性,并且不具有细粒度下最优的问题。因此,本文提出了自适应的分层递阶特征表示的三支决策分类算法(AH3)。首先,将三支决策理论思想结合最小覆盖算法,形成最小三支覆盖算法(MinCA),将明确数据划分到具有类别明确的正域和负域中,同时将不确定数据划分到边界域中;接着,基于模糊商空间理论(FQST),分别处理明确的正域和负域样本构建模糊等价关系,过程中,为了加强特征之间的关联联系以及删除弱特征,我们引入了方差,并于互信息相结合,从而获的相关度更高的多层特征表示;然后,通过边界域验证分别得到正域和负域的准确率最高的特征表示层;最后,从粒度大小角度出发,对准确率最高所属的特征表示层进行上下层粒度分解,并自适应选择更加适合的特征表示,作为最终处理边界域样本的特征表示层。实验结果表明该算法获得的特征表示可以更有效地处理边界域样本,同时进一步提高了数据整体的分类准确率。