论文部分内容阅读
近几年,医疗大数据受到了人们的广泛关注,如何充分利用海量的临床数据挖掘出其内在的重要信息知识,对隐患的疾病甚至癌症做出预测诊断,从而让病患得以预防或提前医治,将具有重大的意义。从新生儿脑瘫预测出发,本文试图通过大数据挖掘找到一个适用于医疗预测场景且具有较高预测准确度和较低模型总体损失的学习算法,使其不仅能够对新生儿脑瘫做出最大程度的正确预测,而且对其他几种特定的疾病预测都能有效应用。本文重点研究了半监督学习算法,并且对医学预测场景下的半监督学习算法出现的问题进行了模型改进,主要取得了以下成果。一、针对医学数据集设计了一套数据预处理方法流程。由于医学临床数据无法直接建模,本文通过填充数据缺失值、处理不一致性数据、检测离群点,先对脏数据进行清洗。然后对多个临床数据源的数据集进行对象匹配和模式集成,并对各个字段属性进行冗余性和相关性分析。最后对数据集进行特征缩放和维数归约。实验验证了该方案可有效加强数据可用性,并可提升数据集在建模过程中的计算效率。二、根据医学数据集中有标记样本过少、无标记样本较多的特点,将半监督学习算法应用到脑瘫预测等特定疾病预测模型。已知有监督学习在疾病预测场景中已有研究,本文对有监督学习中性能较好的混合高斯模型、支持向量机模型、图模型,与其在半监督学习领域分别对应的半监督混合高斯模型、半监督支持向量机模型、半监督图模型做出了理论推导和构思技巧的对比分析。通过在8个数据集上设计3种有标记样本数量比例,仿真实验在3种评估指标的均值结果上均验证得出:半监督学习算法在脑瘫预测等疾病预测模型中具有性能优势,且半监督支持向量机模型的表现最好。三、针对医疗场景下出现的问题,提出基于半监督支持向量机的改进算法模型。其一,基于误分正类样本损失和误分负类样本损失不对等问题,本文设置不同误分类权重,以加大对误分正类样本的惩罚,从而减小整体误分损失。其二,基于类别极度不平衡数据导致的学习器“傻瓜化”问题,本文对未标记数据中正类样本的数量比例进行条件约束,使得其比例更接近真实样本标签的分布比例。其三,基于有标记和未标记样本数量差别悬殊对目标函数的经验风险项造成的影响,本文对有标记和未标记样本的经验风险函数分别进行了一定比例的缩放,从而减小了因标记数量不均衡造成的预测误差。在理论推导分析后,本文通过详尽的实验分别验证了3个改进步骤在一定程度上提升了模型分类准确度,且降低了模型总体损失。