论文部分内容阅读
大于胎龄儿(LGA)是指出生体重在相同胎龄平均体重的第90百分位以上的新生儿。体重过高的新生儿表现出严重的新生儿和产妇并发症。此外,它往往会使分娩更复杂,并可能在整个产前期对产妇和新生儿产生不利影响,加快婴儿发病率和死亡率。此外,大于胎龄儿容易发生围产期窒息,肥胖和超重,肩难产,心脏代谢疾病(包括高血压),胰岛素抵抗,2型糖尿病,以及晚年代谢综合征。大于胎龄儿的母亲剖腹产、分娩时间延长、产后出血和外伤风险增加的风险也会增加;在生命后期也会有不良后果,如体重增加的机会加快;患乳腺癌的机会加快。因此,研究者和儿科医生已致力于建立一个有效和可靠的预测方案,以对具有确定性危险因素的大于胎龄儿进行早期诊断和预后。在过去的几十年里,研究人员和儿科医生建立了大量的预测模型,这些模型需要监测常规检查项目以外的几种不同的生化指标,其中一些指标与儿科医生的专业知识和经验密切相关。此外,他们大多是观察或回顾性研究,建立在小样本的基础上,也因此其在广泛临床环境中的可靠性、适用性和实用性尚具有争议。针对上述问题,我们获得了包含248501条记录、371个属性的LGA数据集,其中230190条(92.6%)是活产;18311条(7.4%)是中国“国家孕前检查计划”中的死产、流产和流产。该项目于2010年正式启动,覆盖全国31个省(市、市、区)220个试点县。在获得的数据基础上,我们对出生为LGA的婴儿进行了一项科学研究,使用以前从未使用过的可靠的机器学习技术以确定大多数确定性生化指标,为早期干预和预防所定义的疾病奠定基础。此外,特征选择和特征提取对模型的开发也起着至关重要的作用。因此,我们在本研究中的主要焦点是提取最适合的特征子集,并在领域专家的共同意见下推荐一个合适的LGA预测模型。在这项研究中,我们还提出了一个具体的机制来强调数据预处理技术、缺失值插补、处理非平衡数据集的重要性。用合适的预测模型检测和提取最合适的特征子集,可以帮助儿科医生和研究人员早期干预和诊断疾病,并从多个方面理解LGA。事实上,本研究通过建立LGA胎儿的基本理论和应用,选择和提取最具确定性的相关危险因素,必将为科学社会的发展做出贡献。以下是本文的主要贡献。1.据我所知,本研究是第一次利用机器学习技术建立一个有效的中国人口LGA预测过程,覆盖中国31个省的220个试点县,包括中国所有地区、市、区医院。然而,以往的研究局限于某一地区、某一医院,且多为观察性或回顾性研究,只使用简单的统计检验或线性或多元logistic回归建立LGA预后过程。2.提出了一种新的非平衡数据集处理算法,因为将机器学习技术直接应用于非平衡数据集可能会在分类任务中误导分类器。该方案有助于提高LGA的分类性能,克服了过拟合和欠拟合的问题。3.提出了一种主特征向量(MFV)的生成算法,克服了由于数据不一致、缺失值和分类相关问题而导致的分类系统的不利影响。提出的MFV方法成功地提高了LGA的预测性能得分,并解决了数据不一致、与缺失值相关的问题和数据不平衡问题。4.提出了一种建立半监督特征选择方案的算法,该算法除了统计检验外,还包括专家的专业知识,以挖掘出具有实际应用价值的确定性特征子集。并与七种自动特征选择方案进行了比较,说明了该方案的重要性。该方案具有20个排名特征,从性能指标得分来看是最佳的。此外,通过将七个自动特征选择中的共同特征进行交叉,可以看出十一个特征来自于由专家选择的二十个特征,这些特征是利用专家的专业知识结合统计测试开发的。5.提出了几种有监督、半监督和无监督的特征选择和提取方案,以确定合适的风险因素,从而开发高效的LGA预测过程。它包括专家驱动的特征选择方案、基于聚类的特征选择方案(CFS)、几种自动特征选择方案(即信息增益、Chi2平方、Pearson相关、逐步Logistic回归、带有Gini指数的随机森林和Boruta),基于网格搜索的递归特征消除与交叉验证(RFECV)特征选择方案、基于网格搜索的RFECV+信息增益(IG)特征选择方案和基于网格搜索的RFECV+IG+叠加特征选择方案。采用基于网格搜索的RFECV+IG+叠加特征方案,对10个特征子集进行排序,得到了92%、87%、92%、95%、95%和89%的预测精度、召回率、准确率、曲线下面积(AUC)、特异性和F1评分,为开发高效、可靠的预测模型奠定了基础,同时具有准确的LGA预测过程和较少的计算开销。