论文部分内容阅读
随着社会生活信息复杂度的增加,数据采集、存储、分析和运用的需求越来越大,数据冗余、类别分布不均衡的情况也越发常见,人们不断致力于优化各种模型,改善分析环境等,意图从复杂数据中提取出有实际价值信息。例如在银行对客户进行风险预测的案例中,违约和正常两种客户类别在总体中所占比例差距很大,此时,有效的数据处理才能使模型产生更好的训练结果。在这种数据维度高且样本类别不均衡的情况下,虽然违约客户人数较正常客户人数来说占总体比例很小,但若将违约样例错误判定为正常样例,那么带来的损失是不能预想的。同样,当正常样例被判定为违约样例,则会使银行损失信用良好的客户。基于此,文章通过研究样本的分布情况提出一种基于不均衡样本数据信息量的综合得分欠抽样方法。首先将原始数据中的大类样本分别进行主成分、核主成分和信息熵三种方法计算信息量,根据得出的信息量大小从大类样本中选取与小类样本数量相当的样本,再分别利用选取后的均衡样本建立逻辑回归分类器,根据分类结果找出能力最优的方法。文章利用Kaggle网上的26234个竞赛数据进行了实证分析,计算得出经主成分、核主成分和信息熵欠抽样使样本均衡后,分类器召回率由未处理数据的47.1%分别提高到93.3%、92.1%和94.7%,在文章选取的样例数据中,信息熵提取出的信息量最大的样本效果最好,同时也说明此类方法对不均衡数据的有效性。结果表明,基于样本信息量的欠抽样方法不仅能使分类算法的收敛速度得到一定程度提升,而且经过欠抽样处理后的数据模型拟合度及召回率比之未经处理的数据有较大提高。由于文章实证分析数据集有限,且核主成分的代码调用了工具包,导致默认的参数适用性和核函数的选择受到了局限,但研究结论对后续相关研究仍有一定的指导意义。图16幅;表16个;参49篇。