论文部分内容阅读
本文以UCI数据库为研究样本,分析logistic模型对不同程度非平衡数据的敏感性。研究表明:1数据非平衡程度越高,logistic回归对稀有类的识别能力越差。2相对于其他修正方法,OSS方法的改进效果不显著且不稳定;相对于复杂抽样,简单抽样修正结果更优。3AUC值不适宜于非平衡数据条件下的模型选择,因为在非平衡数据条件下,它不能有效区分四种修正方法的优劣,而且修正前后的差异亦不能辨。