论文部分内容阅读
目的分析比较几种常用的非平衡分类技术在人群糖尿病疾病风险预测模型中的应用。方法利用中国慢性病前瞻性研究浙江省桐乡市项目点基线调查数据和随访数据,使用机器学习算法建立人群糖尿病发病风险的预测模型,同时探讨欠采样、过采样、SMOTE技术及替换切点技术对分类器性能的影响。结果本研究中神经网络预测模型的AUC值最高,达0.7971,经最优切点的选择和分类后,灵敏度和特异度分别为0.7149和0.7431,模型具有较高的预测能力,同时较好的平衡了灵敏度和特异度的分布。采样法对不同分类器的AUC值影响不同,一般欠采样