基于血常规数据的哮喘病诊断模型的研究与实现

来源 :江苏大学 | 被引量 : 0次 | 上传用户:fromgz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
哮喘病是世界上最常见的慢性病之一,因其患病人数多且难以根治给社会造成巨大影响。血常规数据可以用来辅助诊断哮喘病,有效提高医生诊断效率。但血常规数据集正负样本比例失衡及特征冗余问题,会影响哮喘病预测模型精度。针对以上问题,本文研究基于改进的过采样算法解决数据集正负样本比例失衡问题;采用改进的特征选择算法进行特征提取;设计并开发面向哮喘病的辅助诊断系统。具体工作如下:(1)针对血常规数据正负样本比例失衡,训练机器学习算法模型会导致对患病数据预测精度过低的问题,提出一种新的过采样方法FSMOTE,并将其运用到血常规数据处理。FSMOTE的主要思想是:一方面对数据集进行聚类并在少数类区域内进行插值生成新样本,确保新样本为少数类,以解决传统SMOTE算法不能解决正负样本边界(新生成样本所属类别)问题;另一方面,提出数据统一量纲标准计算样本间的欧几里得距离,以解决新生成样本与现存样本重叠问题,提升数据集质量。数值实验结果表明,新提出的过采样方法相较于其他过采样方法有更优的性能,在多个数据集上运行机器学习算法发现模型的特异性、F值和精确度都有不同程度的提升。(2)针对现有Relief特征选择方法无法解决血常规数据特征冗余导致分类器精度难以提升问题,提出一种新的特征选择方法SAMI-Relief。该方法计算出血常规数据特征与类标签之间的相关性并顺序排序,引入互信息计算冗余度,保留与类标签高度相关且与其他特征冗余度最小的特征,以此来解决特征冗余问题。另一方面对排序好的特征,自适应的选择出与类标签预测价值最大的特征子集,以提升模型效率且提高模型诊断精度。数值实验结果表明,SAMI-Relief特征选择算法性能表现更优,且在FSMOTE平衡后的血常规数据集上SVM分类模型准确率最高可达98.2%,特异性为0.988,精确度为0.986。(3)设计并实现一个哮喘病辅助诊断原型系统。首先详细地分析系统的具体需求,其次对系统的设计架构、技术选型等进行介绍,最后利用训练好的分类模型实现哮喘病诊断工作,验证算法的可用性。
其他文献
MicroRNA是广泛存在于真核生物中的重要的调节因子,在植物和动物中的研究发现其功能是多样的,并且在生物体内有着重要的调节功能,包括生长发育和逆境应答等众多方面。Aft(Anthocyanin fruit)型番茄LA1966是由原产智利的野生种番茄L.chilense与番茄栽培种L.esculentum杂交所得,其果实在未成熟阶段,可产生并积累花青素。本研究选用Aft型番茄为试材,对不同发育时期
学位
近些年来,随着互联网和计算机技术的迅速发展,人们对于智能化的人机交互需求越来越高。语音是人类社会交换信息的重要方式,也是人机交互的一个重要接口,在人类生活中起到了关键的作用。近年来,语音识别等技术作为语音交互的核心得到了广泛的关注。作为语音识别的前端处理工作,建立一个自动进行语音增强的系统就成了近年来的一个研究热点。主流的单通道语音增强模型采用长短时记忆网络进行时序建模,但它的时序建模能力不强,无
学位
REMORIN(REM)是植物特异性蛋白家族,定位于质膜,是脂筏的重要组成成分,在植物生长发育、激素信号转导以及非生物胁迫等方面发挥重要功能。盐碱胁迫是限制植物生长发育的重要非生物胁迫,因此解决土地盐碱化以及盐碱地资源如何有效利用至关重要。本研究以过表达BrREMORIN基因的转基因烟草为研究材料,对其生长发育和耐盐碱特性进行评价,通过RNA-seq分析,揭示REMORIN蛋白在植物响应盐碱胁迫中
学位
石油产业是我国经济的支柱产业。HSE(Healthy,Safety and Environment)健康、安全和环境管理体系,是在国际石油业中探索并逐渐发展起来的三位一体的管理体系。随着经济发展和社会进步,社会对安全生产的期待不断提高,从业人员对于自身职业健康与安全的意识不断增强,政府对于工作环境和工人的职业安全健康权益的关注也日益提升。外部和内部环境的变化,促使越来越多的企业开始重视健康、安全和
学位
基于计算机断层扫描的病变自动检测已成为一个备受关注的研究领域,研究人员希望利用计算机辅助诊断系统来辅助临床医学诊断。目前的检测算法主要针对特定的器官部位进行病灶检测,不具有通用性,限制了辅助诊断系统的应用和普及,同时影响医生在临床诊断中对病情作出全面的诊断。人体腹部各器官在空间位置上紧密连接,癌细胞无限增殖的特性导致其有可能向周围浸润及向远处转移,会在其他部位生长相同的癌细胞,腹部病变检测可以帮助
学位
三萜化合物是一类具有多种骨架结构的生物活性物质,已经发现的三萜骨架多达120多种,包括具有椅-船-椅(CBC)构象的羊毛甾烷、波罗蜜烷、葫芦烷等四环三萜,以及达玛烷、甘遂皖、大戟烷等椅-椅-椅(CCC)构象的四环三萜,以及羽扇豆烷、何伯烷、乌苏烷、齐墩果烷、蒲公英烷和木栓烷等CCC构象的五环三萜。2,3-氧化鲨烯环化酶(OSC)是产生三萜骨架的关键酶,已有将近150种不用产物的OSC酶被鉴定,主要
学位
植物自交不亲和性(Self-incompatibility,SI)是很多显花植物促进异交防止自交的一种机制。M位点蛋白激酶(M locus site pretion kinase,MLPK)是存在于柱头中的SI信号正向调节因子。羽衣甘蓝(Brassica oleracea var.acephala)是十字花科芸薹属植物,具有观赏价值和良好的耐寒性,是北方重要的园艺植物之一,芸薹属植物是植物自交不亲
学位
白桦(Betula platyphylla Suk.)是主要分布于北温带的落叶乔木,作为北方森林重要的先锋树种和建群种,具有重要的生态价值。白桦木材黄白色,纹理光滑,材性优良,可广泛作为建筑和工业用材,具有很高的经济价值。白桦树皮中的白桦酯醇、白桦酯酸等三萜类化学物质,可用于制造抗肿瘤和防HIV药品等,具有很高的药用价值,也可用作化妆品和香料的制造。全球气候变化和不合理土地的开发使得盐碱地面积仍在
学位
辣椒疫霉菌(Phytophthora capsici)是危害自然界蔬菜产量的一种毁灭性病菌,可危害多种蔬菜和作物,给全世界蔬菜种植产区带来了巨大压力,开发新型安全的生物防治方法迫在眉睫。白屈菜红碱于常见植物白屈菜中提取得到,属于生物碱中的苯并菲啶季胺碱,对于其在农学上抑制植物病害发生发展的方面已有研究,而目前还未应用于卵菌病害的防治方面。本论文以辣椒疫霉菌为研究对象,从分离鉴定、白屈菜红碱对其体外
学位
自“人工智能+教育”的发展战略被提出,涌现出了一批优秀的数学领域智能教育产品,这些产品的底层都依赖于知识点标注精准的试题数据。然而,现有的知识点标注工作大多仍停留在手工标注阶段,不仅费时费力,而且易出现漏标、误标等现象。数学题目自动标注可提高知识点标注效率,具有推动社会生产力发展的积极意义,但此项工作还少有人研究。因此,如何利用数学领域知识特点,构建精准高效的数学题目自动标注系统,是本文研究的一个
学位