论文部分内容阅读
随着医疗信息化的不断发展,医学问题受到了更多关注,越来越多的医学领域问题可以通过计算机技术解决。目前医院感染性疾病是导致死亡的全球第二大原因,医院院内感染不仅会带来患者的身体与经济负担,还会造成医院资源的不合理使用。现有针对医院院内感染的监控与检测的方法中,许多采用事后判断法,有一定的滞后性,而一些事前监测手段表现出单一、不全面的特点,医院院内感染风险预测的问题亟待解决。本文提出了基于改进的随机森林模型预测患者发生院内感染的风险,为及时发现院内感染风险和提高院内感染预测准确率做出进一步探究。首先,分析患者院内感染数据的特点,依据这些特点和随机森林算法的输入要求,对原始数据集进行预处理,以获得最全面、高质量的特征集合。其次,针对原始医疗临床数据存在不平衡性的问题,即感染数据远远少于非感染数据,利用SMOTE算法,对非平衡数据做平衡化处理,提高分类模型预测准确率。再次,提出一个改进的扩展随机森林算法,能够对新样本给出是否发生院内感染的精确预测。改进的扩展随机森林算法是对多种感染类型分别生成随机森林,这些随机森林组合成扩展的随机森林,应用Hadoop组件和Mahout机器学习库实现扩展的随机森林算法。最后,分析处理秦皇岛市第一医院的14223596条临床数据集,提取实验数据,对数据平衡化后,实现随机森林算法并进行测试,然后利用评估标准对改进的随机森林预测结果进行评价,评估表明扩展随机森林算法的预测准确率高于传统随机森林算法。