论文部分内容阅读
数据不平衡问题的存在,使得模型倾向于将测试样本判别为多数类,导致少数类的分类效果较差。可以从数据和算法两个角度解决数据不平衡带来的问题,本研究主要关注关键因素筛选时不平衡问题的处理,在数据层面使用基于SMOTE抽样的Group Lasso,算法层面使用了调节阈值的Group Lasso,包括分步调节参数和同时调节参数两种方法。最后在307例亚健康患者的问卷数据上使用三种方法建立"肝郁脾虚"诊断模型。从得到的结果来看,基于SMOTE的方法和同时调参的方法得到模型预测效果在灵敏度和特异度上