论文部分内容阅读
特征集优选是模式识别中一个重要的研究内容,因为在模式识别中往往会提取到多个特征,然而并不是所有的特征都有助于提高分类准确率,有些特征甚至会降低分类率。因此如何去掉冗余特征,选择较优的特征集是一个研究的重点和难点。国内外研究者提出许多特征集优选的方法,这些方法首先采用特定的特征排序方法对特征进行排序,根据排序结果选择最优的特征子集。因此特征排序方法的好坏直接影响选取的特征集的优劣。特征排序方法从总体上可以分为两大类:单一排序准则和多准则排序方法(多准则是将几个单一排序方法按照一定的组合规则融合在一起)。在没有先验知识的情况下,对于给定特征集,我们无法确定哪个单一排序准则更适合该问题,导致选择困难,因此单一排序准则融合成为研究的热点。本文首先以高速列车走行部常见故障的实测数据的特征集为研究对象,提出了一种基于Fisher’s ratio和模糊熵方法的多准则特征集优选方法。该方法将Fisher’s ratio和模糊熵方法“并行”融合,得到特征的综合排序,去掉冗余特征,从而得到更有效的特征集。实验部分先对标准数据特征集做测试,验证该方法的有效性,再将该方法应用于高速列车走行部故障数据的特征集中,得到更有效的特征子集,提高故障识别率。如何融合各单一排序准则(即融合规则)是多准则特征排序方法的核心问题。给定-个特征集,使用不同的单一准则会得到不同的排序,即不同的排序之间存在冲突,若处理不当将产生错误结果。D-S证据理论能够有效地处理融合过程中存在的冲突,进而解决融合悖论问题。因此基于D-S理论本文提出了一种新的多准则特征集优选方法(MCFR-DSEC)。该方法结合不同的单一准则以提高分类准确率和稳定性,与已有的准则相比,MCFR-DSEC表现出明显的优势。但MCFR-DSEC方法的融合规则计算复杂、参数较多。因此本文又选择计算简单、效果好的Murphy的改进D-S算法作为融合规则的新方法-MCFR-MURPHY。实验结果验证了该方法的有效性且计算简单。除了分类准确率,本文还测试了特征排序方法的稳定性,因为如果一个特征排序准则稳定性不好,那么当测试数据集样本发生微小变化时可能会得到不同的特征排序。总之,将D-S理论作为融合规则不仅能够有效地融合各个单一准则,且具有很好的稳定性。最后,本文将MCFR-MURPHY方法应用于高速列车走行部故障状态识别,对特征集中的特征进行排序,每次去掉一个冗余特征,并求得相应的准确率,即可得到各个特征空间的分类准确率。与BordaCount和单一排序准则对比,MCFR-MURPHY方法能够更有效地判断各个特征对分类的作用,且计算方法简单、普适性强、稳定性好。