基于不平衡数据的血栓风险预测算法研究

来源 :西安邮电大学 | 被引量 : 2次 | 上传用户:wsl526
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
骨科术后静脉血栓栓塞症是患者手术期死亡的主要原因之一,病人发病期一般无临床表现,血栓通过阻塞脏器动脉造成死亡。在美国近25%的VTE患者入院,10%的住院患者死亡与肺栓塞有关。我国自2007至2016,VTE的发生率也从3.2/10万人上升至17.5/10万人,对骨科术后血栓风险预测分析在临床研究中起着重要的作用。但临床中患病人数比例极低,存在严重的数据不平衡现象。在机器学习的实际应用中,还有许多数据集是不平衡的,并且很多时候少数类数据更重要,将其错分要付出更大的代价,如金融欺诈检测、故障检测、垃圾邮件判别等。因此,以全部数据预测准确率为学习目标的传统分类算法并不适用于不平衡数据的分类,对提高不平衡数据的分类效果有着重要的研究意义。当前对于不平衡数据分类问题主要从两个方面解决,一个是数据重采样,另一方面是对分类算法的改进。基于以上背景,本文通过对真实数据集的预处理、改进重采样算法、将代价敏感函数与集成学习算法结合三个方面,解决骨科术后不平衡数据的分类问题。本文主要工作如下:(1)本论文所研究的数据来源于中国人民解放军总医院(301医院)骨科,数据具有真实性,在医院对病人数据录入中,无法避免的会有错录、少录等情况发生。而数据预处理是机器学习中的重要部分,一份预处理适当的数据集,可以增强分类器表现。对于本文使用的原始数据存在的问题有:数据不完整、数据不一致、数据的冗余以及数据缺乏数字特征等。本文通过结合医生的指导意见,对本数据集的总结出了预处理规则。通过预处理后的数据,共有15856名病人,其中未患血栓的病人有15328名,而患血栓的病人有528名。(2)提出了一种i F-ADASYN采样算法,利用ADASYN采样算法作为基准采样算法,并引入孤立森林算法来克服其易受到离群点影响的缺陷。i F-ADASYN采样算法通过计算少数类数据的权重,对于权重较高的数据进行判断是否为离群点,删除权重较高的离群点后对少数类数据进行采样。实验结果证明,在骨科术后病人数据集中,i F-ADASYN采样算法的AUC值比常用采样算法SMOTE、ADASYN均有提高,其中对患血栓病人的识别率提高了20%。i F-ADASYN采样算法相对比ADASYN算法,获得了更好的抵抗离群数据干扰性,提高了少数类决策边界区域划分的准确性。(3)提出了基于代价敏感学习的梯度提升树算法CO-GBDT,该算法在GBDT中的对数损失函数中引入了代价函数,对于两分类问题,提高将少数类错分为多数类的代价,使CO-GBDT算法更偏向少数类。并采用三种不同的代价损失比值,将原始数据与上一章中的IF-ADASYN算法重采样后的数据作为训练数据集,使用CO-GBDT算法对这两种分类数据进行对比。可以看到,CO-GBDT算法对于不平衡的原始数据效果更好,其对于少数类识别率可以达到95%。
其他文献
4月23—26日.中国科协常务副主席、书记处第一书记.党组书记陈希在广东考察调研科协工作。调研期间.广东省委副书记、省长朱小丹.广东省委常委、深圳市委书记王荣.广东省副省长陈
王兆国出席并讲话韩启德致开幕词陈希主持张庆黎致欢迎词张庆伟周济等作大会特邀报告姜莹9月8日,第十四届中国科协年会暨大会特邀报告会在省会河北会堂隆重举行。王兆国强调,广
2012年,对被誉为“光学摇篮”的中国科学院长春光学精密机械与物理研究所来说是值得庆贺的一年,这一年,它迎来了60岁生日。60年一甲子。甲子,在中国传统里是一个轮回的意思。60年
专家简介:罗继杰,1951年出生,辽宁沈阳人,空军某工程设计研究局高级工程师,中国工程设计大师。专业技术二级。1970年参加中国人民解放军,曾任空军工程兵某总队战士、班长、干
在配电系统中,终端的高覆盖率和网络的低能耗是配电无线通信网的规划中两个互相矛盾的目标。提出一种基于绿色无线网络覆盖最优的配电无线通信网规划方法。将覆盖率和能耗两个
3月10日,北京自然博物馆宣布,由中美科学家联合研究,首次完整复原一个小型兽脚类恐龙——赫氏近乌龙的全身羽毛颜色。
中央政策的出台,其激励作用是巨大的。2009年5月14日,国务院正式发布了《关于支持福建省加快建设海峡西岸经济区的若干意见》,海西经济区迎来了历史性的重大发展机遇。这项政
2011年12月11日.钱学森图书馆在上海交通大学建成开馆。截至2012年3月31日,该馆已累计接待参观人数35000余人次.在开展思想教育、普及科学知识、培养优秀人才等方面发挥了积极作
“随着信息技术的进步,信息系统集成的应用模式和发展方向正在发生重大变化。我们必须要适应这种变化,作出调整,转变发展方式。”日前,工业和信息化部副部长杨学山如此表示。