面向不平衡高维数据的罕见病预测系统的设计与实现

来源 :东南大学 | 被引量 : 1次 | 上传用户:jicaomin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
罕见病是指小于五十万分之一人口发生的疾病或小于万分之一名新生儿中发生的疾病,一般具有发病率低,病情复杂以及病期较长等特点。目前罕见病诊疗主要面临诊断困难,误诊率高以及治疗方案匮乏等困境。近年来,数据驱动的基于机器学习的疾病预测已经成为罕见病诊疗的重要研究方向。但基于机器学习的罕见病预测仍面临如下挑战:1、数据类别不平衡。由于罕见病发病率低,数据中患病样本数量相对正常样本少;2、数据特征维度高。由于罕见病发病机制复杂,罕见病诊疗通常要综合考虑诸多人体生理指标,所以罕见病数据集包含非常多的生理特征数据。针对上述挑战,本文面向不平衡高维数据进行罕见病预测系统的设计与实现。论文的主要工作如下:(1)针对数据类别不平衡,Kmeans-SMOTE方法通过对数据进行聚类保证过采样样本的质量;Random-SMOTE方法通过在样本空间内过采样缓解过采样后少数类样本类内不平衡问题。但Kmeans-SMOTE方法过采样后依然存在少数类样本类内不平衡问题;而Random-SMOTE方法合成少数类样本存在质量较差问题,为此,本文提出了一种四边形过采样方法。首先对数据集样本进行聚类,对少数类较密集簇进行过采样以保证新合成样本的质量;之后在特定区域内合成新的少数类样本,缓解少数类样本类内不平衡现象。在Ig A肾病数据集和重度抑郁症数据集上的实验结果表明,本文提出的四边形过采样方法相较于现有方法,可以有效提升模型分类性能。(2)针对数据高维特征,考虑到单一种类特征选择方法在特征选择时普遍存在的自身缺陷,本文提出了一种基于异质集成思想的特征选择方法。方法首先得到不同种类特征选择方法对应的重要特征集合,然后对这些重要特征集合进行交集,并集和多交集等多种方式的组合,最后通过评估不同组合方式产生特征集合的分类效果,生成最优特征子集。在Ig A肾病数据集和重度抑郁症数据集上的实验结果表明,本文方法筛选出的特征子集,相较于单一种类的特征选择方法筛选出的特征集合,基于此组特征的模型分类效果更优。(3)基于前面提出的四边形过采样方法和异质集成特征选择方法,本文设计并实现了一个面向高维不平衡数据的罕见病预测系统。首先从软件工程角度明确了系统需求,之后对系统进行了详细设计与实现。系统基于B/S框架设计,采用My SQL数据库进行数据存储。系统主要功能包括罕见病数据集处理,罕见病预测等。最后对系统各个功能进行了测试,结果表明,系统各个功能均达到了设计要求与实现目标。
其他文献
健康管理以现代营养学和信息化管理技术为基础,从社会、心理、环境、运动、营养等多方面对个人提供全面的健康保证及管理服务,通过改善个人行为、生活习惯等方面来预防慢性疾病的发生,从而提高个人生活质量。针对现有的大多数健康信息管理系统中所存在的系统分析模型简单、用户个性化管理不充分、用户成本较高等问题,本文设计并实现了一个能同时满足多维度数据分析、个性化管理、低成本且便捷化的基于信息网络的健康信息管理系统
学位
温度传感器在医疗、农业生产及工业监控中有着广泛的应用,伴随着工艺技术的快速发展,芯片的集成度越来越高,功耗也越来越大,且温度传感器本身功耗的大小会影响自身测量温度值的精确性,低功耗设计是当前温度传感器的研究热点。与此同时,电子产品在不断的微型化,所带电池的体积也在缩小,要求温度传感器能在较低的电源电压下正常工作。因此,低压低功耗CMOS温度传感器的研究十分重要。本文低压低功耗CMOS温度传感器主要
学位
随着网络技术的快速发展,互联网逐渐取代传统纸媒成为了人们获取主题信息的主要途径,社交网络与各种在线新闻门户网站一同形成的混合新媒体环境则成为了这些主题信息的重要载体。如果可以利用主题模型将文档中潜在的主题信息挖掘出来,就可以节省大量的人工时间和精力,帮助用户了解主题发展的趋势。针对现有主题建模研究的不足之处,本研究将基于混合新媒体环境下的真实数据构建主题模型,基于预训练技术引入文本的上下文语义关系
学位
当前解决资源紧缺和环境污染的最重要和有效手段之一为基于半导体材料的光催化技术。与Ti O2等传统的光催化剂相比,石墨碳氮化物捕获光的范围更广,理化性能更稳定。然而,通过传统热诱导聚合含氮前体制备的氮化碳高分子衍生材料具有无定形或半结晶结构导致了低电导率和中等光催化活性等缺点。近年来,为进一步优化石墨碳氮化物的光催化性能,高活性的结晶氮化碳材料因其较少的缺陷被提出并引起了国内外学者的热烈讨论。经过不
学位
各类便携式设备已成为人们日常生活中不可缺少的一部分,随着便携式设备的应用场景愈加广泛,人们对生物医学应用的无线传感器设备的兴趣日益浓厚,这些传感器设备通常用于生物信号的长时间监测,如心电图(ECG)、脑电图(EEG)、肌电图(EMG)。因此,应用于生物信号监测系统中电路的功耗成为了重点关注的方向。模数转换器(Analog-to-Digital Converter,ADC)作为模拟信号与数字信号的桥
学位
采用当前方法优化动车组底部智能巡检机器人机械结构参数时,由于在构建参数优化函数过程中未考虑机械结构参数约束条件,使得最终优化效果差、优化后巡检机器人运动性能差,因此,提出新的动车组底部智能巡检机器人机械结构参数优化方法。根据动车组底部巡检机器人故障检测过程中,机械探测装置因电压正负极排斥产生的位移倾角,推导巡检机器人动力学方程,并将这一方程输出的巡检机器人机械结构参数矩阵与参数约束条件相结合,构建
期刊
通过设计加工制作一种立式压滤机滤布拆装装置,代替人工作业,最终实现简单、安全、省时、省力的完成滤布拆装工作。
期刊
催化滤布可同时去除烟气中的粉尘颗粒和NOx,满足水泥等行业NOx脱除的迫切需求。而催化滤布中催化界面的形貌会显著影响其脱硝性能。制备了具有球形催化界面的MnCeOx/P84催化滤布(α-MnCeOx/P84),并考察其NOx脱除性能。结果表明:当MnCeOx负载量为60 g/m~2时,α-MnCeOx/P84在130℃时NOx脱除率为86.9%,160~190℃时NOx脱除率>97%。同时,α-M
期刊
本文主要研究了实现沉浸式视听相关技术体系。文章首先提出大屏、VR、AR、立体显示等典型的场景,其次分析了实现这些场景所需要的能力和技术,最后提出相应的技术体系,为进一步深入研究相关技术打下基础。
期刊
我国农村污水处理设施存在规模不健全,对有机物和氮的去除效果不理想等问题。处理设施尾水的直接排放容易造成农村自然水体水质恶化,加重富营养化。本文以生物活性炭技术和臭氧氧化技术为基础,采用前置反硝化模式构建了用于农村生活污水深度处理的O3+生物滤池组合工艺,并对工艺的滤料配比、臭氧投加量、碳氮比、水力负荷等运行参数进行优化,以期获得较好的污染物去除效果。在不同填料配比滤池除污效果的对比试验中,全部装填
学位