论文部分内容阅读
最近邻分类器作为模式分类领域一种简单而有效的分类方法,有着广泛的应用。但是在实际问题中,特别是在不同类别的分布空间有重叠的情况下,其分类性能会有较明显的下降。针对这个问题,本文引入了自然界中的引力塌缩现象,并根据这种现象,针对模式分类问题在特征空间中进行了模拟,建立了模拟引力塌缩模型。通过在样本上模拟引力塌缩现象,从而达到样本分布范围适当压缩的效果,并通过对样本分布范围适当的压缩,达到减少不同类别分布之间的重叠区域的样本,从而提高最近邻分类器的分类正确率的目的。
根据模拟引力塌缩模型,本文提出了一种新的最近邻分类器样本预处理算法——模拟引力塌缩算法(SGC),并针对该方法的性质和作用进行理论的分析。经在两个人工数据集和八个标准真实问题数据集上的实验,SGC算法在所有数据集上都提升了最近邻分类器的分类准确率。在绝大多数数据集上,基于SGC算法的最近邻分类器甚至超越了k近邻分类器,均取得了最高的分类准确率。
本文将SGC算法应用于基于基因芯片的肿瘤预测问题。通过建立基于SC,C算法的最近邻分类器建立的预测模型,并将其应用于急性白血病的肿瘤亚型预测,卵巢癌的阳性预测以及胚胎性中枢神经肿瘤的预后预测三个问题。实验结果表明,对比标准最近邻分类器和k近邻分类器,基于SGC算法的最近邻分类器建立的预测模型在这三个问题上都取得了良好的应用效果,并大大提高了预测的准确率。