论文部分内容阅读
小于胎龄儿(Small for Gestational Age,SGA)是指出生体重在某一正常标准以下的一类新生儿。这部分新生儿通常出生体重较低,他们不但在围产期有着极高的风险,而且在学龄期以及成年期也存在着一系列问题。因此,如果能够实现对SGA患儿的早期诊断,就可以帮助医生实现尽早干预SGA疾病,改善整体预后。随着计算机技术的发展,研究者们开始利用机器学习方法来解决医学中的分类、预测等问题。但是,在SGA疾病预测问题上,机器学习技术还没有被广泛研究。因而,为了得到有效的SGA预测模型,本文选取从2010年到2013年中出生的且孕期为24-42周的单胎活产婴儿数据记录作为研究对象,将多种机器学习技术应用在SGA疾病预测上,进行了对比研究。本文完成的主要工作如下:(1)对SGA数据集进行预处理鉴于原始数据往往存在各种问题,因此在使用之前先进行数据预处理。数据集的预处理工作主要包括:SGA诊断标准的确定以及病例的选择、SGA数据集变量的创建、缺失值处理以及对照的选择。(2)对SGA数据集进行特征选择为了更高效的利用SGA数据特征构建预测模型,本文对数据集进行了特征选择处理,选出优化特征子集,以构建预测模型。本文提出了一种基于专家知识的Filter-Wrapper混合特征选择方法,通过此方法可以将知识驱动与数据驱动选择的特征融合在一起,既考虑了专家知识,又考虑了数据洞察力,得到一种平衡了计算成本与性能的高效特征选择方法。(3)使用机器学习算法建立SGA预测模型利用经典的机器学习算法,如支持向量机(Support Vector Machine,SVM)、随机森林(Random Forest,RF)、逻辑回归(Logistic Regression,LR)和稀疏逻辑回归(Sparse LR),构建SGA预测模型,并进行对比分析研究。实验结果表明在基于专家知识的Filter-Wrapper混合特征选择选方法的帮助下,Sparse LR取得了最高AUC(Area Under the Receiver Operating Characteristic Curve)值,为0.8376。(4)处理不平衡数据改善SGA预测模型考虑到本文所使用的SGA数据集存在的数据不平衡问题,进行了不平衡数据处理来改善SGA预测模型。本文提出了一种简单的基于欠采样的Bagging集成学习方法来处理不平衡问题,得到了更高效的SGA预测模型。性能最好的模型为利用了基于专家知识的Filter-Wrapper混合特征选择方法且解决了不平衡数据特性的RF算法获得,其AUC值为0.8547。(5)利用特征的时间特性建立不同时期的SGA预测模型考虑到本文SGA数据集所具有的时间属性特点,本文分别基于SGA数据集的孕前特征、孕期特征以及产后特征分别构建三个特征集,并对其进行SGA预测模型的构建。实验结果表明能够在孕前或孕期实现对SGA患儿的高性能预测,SVM方法都获得了相应的最佳AUC值,分别为0.8110和0.8120。