论文部分内容阅读
骨科术后静脉血栓栓塞症是患者手术期死亡的主要原因之一,病人发病期一般无临床表现,血栓通过阻塞脏器动脉造成死亡。在美国近25%的VTE患者入院,10%的住院患者死亡与肺栓塞有关。我国自2007至2016,VTE的发生率也从3.2/10万人上升至17.5/10万人,对骨科术后血栓风险预测分析在临床研究中起着重要的作用。但临床中患病人数比例极低,存在严重的数据不平衡现象。在机器学习的实际应用中,还有许多数据集是不平衡的,并且很多时候少数类数据更重要,将其错分要付出更大的代价,如金融欺诈检测、故障检测、垃圾邮件判别等。因此,以全部数据预测准确率为学习目标的传统分类算法并不适用于不平衡数据的分类,对提高不平衡数据的分类效果有着重要的研究意义。当前对于不平衡数据分类问题主要从两个方面解决,一个是数据重采样,另一方面是对分类算法的改进。基于以上背景,本文通过对真实数据集的预处理、改进重采样算法、将代价敏感函数与集成学习算法结合三个方面,解决骨科术后不平衡数据的分类问题。本文主要工作如下:(1)本论文所研究的数据来源于中国人民解放军总医院(301医院)骨科,数据具有真实性,在医院对病人数据录入中,无法避免的会有错录、少录等情况发生。而数据预处理是机器学习中的重要部分,一份预处理适当的数据集,可以增强分类器表现。对于本文使用的原始数据存在的问题有:数据不完整、数据不一致、数据的冗余以及数据缺乏数字特征等。本文通过结合医生的指导意见,对本数据集的总结出了预处理规则。通过预处理后的数据,共有15856名病人,其中未患血栓的病人有15328名,而患血栓的病人有528名。(2)提出了一种i F-ADASYN采样算法,利用ADASYN采样算法作为基准采样算法,并引入孤立森林算法来克服其易受到离群点影响的缺陷。i F-ADASYN采样算法通过计算少数类数据的权重,对于权重较高的数据进行判断是否为离群点,删除权重较高的离群点后对少数类数据进行采样。实验结果证明,在骨科术后病人数据集中,i F-ADASYN采样算法的AUC值比常用采样算法SMOTE、ADASYN均有提高,其中对患血栓病人的识别率提高了20%。i F-ADASYN采样算法相对比ADASYN算法,获得了更好的抵抗离群数据干扰性,提高了少数类决策边界区域划分的准确性。(3)提出了基于代价敏感学习的梯度提升树算法CO-GBDT,该算法在GBDT中的对数损失函数中引入了代价函数,对于两分类问题,提高将少数类错分为多数类的代价,使CO-GBDT算法更偏向少数类。并采用三种不同的代价损失比值,将原始数据与上一章中的IF-ADASYN算法重采样后的数据作为训练数据集,使用CO-GBDT算法对这两种分类数据进行对比。可以看到,CO-GBDT算法对于不平衡的原始数据效果更好,其对于少数类识别率可以达到95%。