面向疾病预测的半监督学习算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:yangjianguo20
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年,医疗大数据受到了人们的广泛关注,如何充分利用海量的临床数据挖掘出其内在的重要信息知识,对隐患的疾病甚至癌症做出预测诊断,从而让病患得以预防或提前医治,将具有重大的意义。从新生儿脑瘫预测出发,本文试图通过大数据挖掘找到一个适用于医疗预测场景且具有较高预测准确度和较低模型总体损失的学习算法,使其不仅能够对新生儿脑瘫做出最大程度的正确预测,而且对其他几种特定的疾病预测都能有效应用。本文重点研究了半监督学习算法,并且对医学预测场景下的半监督学习算法出现的问题进行了模型改进,主要取得了以下成果。一、针对医学数据集设计了一套数据预处理方法流程。由于医学临床数据无法直接建模,本文通过填充数据缺失值、处理不一致性数据、检测离群点,先对脏数据进行清洗。然后对多个临床数据源的数据集进行对象匹配和模式集成,并对各个字段属性进行冗余性和相关性分析。最后对数据集进行特征缩放和维数归约。实验验证了该方案可有效加强数据可用性,并可提升数据集在建模过程中的计算效率。二、根据医学数据集中有标记样本过少、无标记样本较多的特点,将半监督学习算法应用到脑瘫预测等特定疾病预测模型。已知有监督学习在疾病预测场景中已有研究,本文对有监督学习中性能较好的混合高斯模型、支持向量机模型、图模型,与其在半监督学习领域分别对应的半监督混合高斯模型、半监督支持向量机模型、半监督图模型做出了理论推导和构思技巧的对比分析。通过在8个数据集上设计3种有标记样本数量比例,仿真实验在3种评估指标的均值结果上均验证得出:半监督学习算法在脑瘫预测等疾病预测模型中具有性能优势,且半监督支持向量机模型的表现最好。三、针对医疗场景下出现的问题,提出基于半监督支持向量机的改进算法模型。其一,基于误分正类样本损失和误分负类样本损失不对等问题,本文设置不同误分类权重,以加大对误分正类样本的惩罚,从而减小整体误分损失。其二,基于类别极度不平衡数据导致的学习器“傻瓜化”问题,本文对未标记数据中正类样本的数量比例进行条件约束,使得其比例更接近真实样本标签的分布比例。其三,基于有标记和未标记样本数量差别悬殊对目标函数的经验风险项造成的影响,本文对有标记和未标记样本的经验风险函数分别进行了一定比例的缩放,从而减小了因标记数量不均衡造成的预测误差。在理论推导分析后,本文通过详尽的实验分别验证了3个改进步骤在一定程度上提升了模型分类准确度,且降低了模型总体损失。
其他文献
<正>慢性盆腔炎指女性内生殖器(子宫、输卵管、卵巢)及其周围的结缔组织、盆腔腹膜发生的慢性炎性病变[1]。临床表现以长期反复发作的下腹部或腰骶部疼痛、白带增多、月经失
党的十九大报告提出,“支持和规范社会力量兴办教育”,这为新时期我国民办教育事业的发展指明了前进方向,提供了基本遵循。加快修订《中华人民共和国民办教育促进法实施条例》(以
报纸
本课题依据孤东采油厂东一联合站原油的特性,结合现场工艺条件,根据目前破乳剂研究成果和滨化集团助剂公司多年生产经验,选择了并室内合成AR型破乳剂(以酚醛树脂为起始剂)二
大体积混凝土由于内部热量积聚,导致内外温差,容易产生裂缝,影响结构安全和正常使用。降低凝结硬化初期阶段的水化热及延缓温峰来临时间,对有效控制开裂,保障混凝土质量,是很
中国梦归根到底是人民的梦,必须紧紧依靠人民来实现。中华民族伟大复兴的追梦历程中,人民群众发挥着主体性作用;全面深化改革和全面建成小康社会的伟大实践中,人民群众是顺利
以高亮度半导体激光器或玻璃光纤激光器作能源的微型激光等离子体推进器(μLPT)是高效、长寿命、低推力脉冲火箭发动机。它使用简单的低电压半导体开关驱动激光器,截止态电功
以股权转让名义将不符合法定转让条件的土地使用权予以实质转让,该行为从公司法角度看是合法的,从刑法角度分析却可能符合我国《刑法》第228条"非法转让、倒卖土地使用权罪"
本项目组在前期工作中,提出并成功制备了1.5×1.5×10mm金刚石纤维平行间隔排布的金刚石砂轮(以下简称1.5mm金刚石纤维砂轮),并对其磨削性能进行了初步研究。本文在此基础上,对其
语文中的情感教育是其他学科不可替代的。每一篇课文,不但文质兼美,且充满了情感、人文、德育等要素,充分利用其特点施教,是对成长关键阶段的初中生最好的教育。所以,在初中