论文部分内容阅读
针对计算机辅助诊断(CAD)中学习算法处理非平衡数据时,分类器预测具有大类样本的分类误差小,而稀有类样本的分类误差大的倾向性分类问题,提出基于反向k近邻的欠采样新方法.通过去除大类样本集中的噪声及冗余样本、保留具有类别代表性且可靠的样本作为有效样本以此平衡训练样本集,解决了欠采样引起的类别信息的丢失问题.基于UCI Breast-cancer数据集的仿真实验结果表明,该方法解决了非平衡学习问题的有效性,进一步的横向评测对比显示该算法性能显著优于其他同类算法.