基于关联分析和集成学习的慢性病多标签分类算法研究

来源 :四川大学 | 被引量 : 0次 | 上传用户:yuchenyk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来慢性非传染性疾病对人类健康的威胁日益增大。各类慢性病因其复杂的发病过程,很难确定疾病的发病时间。慢性病的早期筛查和确诊是公认的降低慢性病危害的有效办法,只有通过定期的体检来尽早发现诊断慢性病。伴随医疗信息化的建设不断深入,大部分医疗机构已经存有大量医疗健康数据。在这个前提下,逐渐成熟的人工智能技术为慢性病早期的筛查和诊断提供了有力的工具。近年来,针对各类慢性的研究逐渐增多。本文以体检数据为研究对象,针对现有的慢性病研究中存在的疾病关系考虑不充分、预测结果单一等问题,对肥胖症、脂肪肝、糖尿病等10种慢性病进行深入分析,提出了用于多种慢性病的多标签预测模型,并在数据集上进行性能评估与验证。本论文主要研究内容和成果包含如下:(1)基于诊断文本的疾病提取模型。由于操作不当、人员疏忽等因素,数据集中对同一疾病的描述不同。为解决这一问题,本文提出基于Word2Vec的疾病提取模型,收集大量医学相关语料库,训练医学词向量模型,实现疾病名称提取。(2)基于聚类分析的多疾病关联规则挖掘。分别利用K-Means和DBSCAN聚类方法对64种疾病进行聚类处理,再利用FP-growth算法对每个簇中的疾病进行关联规则挖掘,深入挖掘不同疾病之间的关联关系。(3)基于Bagging的多标签分类集成预测模型。各类慢性病之间存在依存关系,大多数患者同时患有多种慢性疾病。现有研究多数针对单一疾病进行预测,没有充分考虑不同慢性病之间的关联关系。因此,本文采用多标签学习算法对多种疾病进行同时预测。首先提出基于神经网络的多标签学习模型ML-NN,为了进一步提升模型的稳定性,提出了基于Bagging的多标签分类集成模型(BMCE),该模型基于本文提出的多标签神经网络模型,再结合两个成熟多标签算法,对三个模型分别进行Bagging集成,在此基础上对三个Bagging模型的结果通过Stacking方法进行整合形成最终的多标签预测模型。经过实验验证,本文提出的ML-NN相较于其他多标签模型具有较好的性能,而BMCE则进一步提升了预测性能,优于常见的多标签模型。最后,实验证明将BMCE与疾病关联规则结合可以再次提升模型性能。
其他文献
终端区是空中交通管制的重要部分,其任务是引导飞行器起飞、降落和有序进离场,随着空域内飞行器数量的增加,终端区空中流量增大,容易导致飞行冲突,引发空中交通阻塞和航班延误,影响飞行安全,因此研究终端区飞行冲突调配具有重要意义。终端区飞行冲突调配是根据当前飞行器参数,判断未来一段时间内飞行器之间的距离是否会小于安全间隔的规定而导致冲突,并对可能的潜在冲突采取措施避免发生碰撞的过程。本文在现有空中管制技术
在低空监视领域中,小型飞行器的机载设备受制于功率和成本,很难准确播报本机的运动参数,只能通过雷达对其进行主动检测。这类小型飞行器具有的飞行高度低、飞行速度慢和雷达反射面积小等特点,极大增加了雷达目标检测的难度。日益增多的小型飞行器造成了许多空管事故,因此,提升雷达对低空空域小目标的检测能力,成为近年来空管领域需要迫切解决的问题。本文针对基于深度学习的雷达目标检测算法展开了深入研究,根据低空目标的特
数字图像一直在信息的传递过程中扮演着重要的角色。如今多媒体信息爆炸的时代充斥了图像和视频等数字信息,同时也存在着包含大量模糊人脸图像的问题。无论是人们日常分享生活、传递信息还是在科研领域中如智能安防、目标或人脸检测或者自动驾驶等计算机视觉任务都需要依托大量清晰的图像,因此将模糊图像重新变得清晰是一个急切且广泛的需求。在图像处理领域中,将图像的模糊主要分为了高斯、散焦、运动、衍射等类型,其中由运动所
光相干层析扫描技术(Optical Coherence Tomography,OCT)因具有非侵入性和微米级分辨率的优点而成为眼科疾病诊断的重要工具。然而,基于OCT技术的诊断存在两个无法避免的问题。首先,采集的OCT图像中存在大量斑点噪声;其次,在采集过程中,为了尽可能避免数据丢失,通常采用低空间采样率进行采样,但由此得到的OCT图像具有较低的分辨率。因此,当前临床上需要可行有效、并能同时实现O
增强现实技术将经过计算机渲染的虚拟物体与真实场景相融合,广泛应用于电影制作、医疗辅助、工业生产、娱乐等领域。为了保证虚拟物体和真实场景融合的真实感,需要渲染虚拟物体时使用的光照信息与真实环境保持一致,实现虚实融合的光照一致性。受可控光源的影响,室内场景中的光照条件比较复杂并且具有动态变化的特点。对室内场景光照的动态变化进行估计,是实现增强现实光照一致性的重要技术。综上,室内场景的动态光照估计具有重
计算机断层扫描(Computed Tomography,CT)能够利用人体组织对X射线吸收率差异进行成像,以无创的方式获得人体的内部结构图像,因此在临床医疗中被广泛应用于疾病的筛查和诊断。由于X射线辐射对人体具有潜在危害,低剂量CT(Low Dose CT,LDCT)逐渐成为了当前CT成像的主要研究方向。减少X光照射剂量和降低曝光时间是目前减少X射线累积辐射的主要手段,然而X射线的剂量减少会引起量
信号调制识别在电子战、通信侦察、雷达侦察、无线电频谱监测与管理和链路自适应等领域有着重要的应用。但如今信道环境越来越复杂且信号调制方式不断增多,如何高效且准确地完成复杂环境中信号调制识别是当前通信各个领域亟待解决的难题。本文以某电子对抗部队非协作通信为背景,针对信号调制识别中传统算法识别性能低、计算复杂度高等问题,基于深度学习对AWGN信道和Rayleigh衰落信道中信号调制识别关键技术进行研究。
行人实例分割是对图像进行实例级和像素级处理的技术,是计算机视觉领域中一项重要的研究任务。当前的行人实例分割存在分割精度不高、缺乏对分割后的行人实例效果检验等问题。本文针对此问题展开研究,主要工作和创新点如下。1.针对当前行人实例分割精度不高的问题,提出了一个行人实例分割与提取网络。网络基础部分,采用单阶段网络设计结构,使用特征金字塔网络提取特征;网络主干部分,分为行人检测分支和行人实例分割与提取分
肺癌是中国发病率和死亡率最高的癌症,恶性肺结节的早期筛查能够显著降低肺癌的死亡率。胸部计算机断层扫描(Computed Tomography,CT)图像能够以非侵入的方式捕获肺结节的异质性,是目前肺癌早筛的常规方法。精准的肺结节定性极其困难,其不仅是因为医生在高强度的工作负担下无法保持高度集中来做出准确的判断,而且还在于人眼难以捕捉到发生在CT值细微变化的肺结节异质性。肺癌的计算机辅助诊断(Com
电子计算机断层扫描(CT)技术可快速获取人体组织结构图像,得到的图像具有极高的空间分辨率以及清晰度。CT技术目前已经成为临床诊断的重要方式,为临床医生对疾病诊断和治疗提供了强有力的帮助。随着CT技术的广泛使用,检测时产生的辐射对受检者所造成的伤害不容忽视,过量CT辐射将严重损害受检者的身体健康。但是,降低CT检测的辐射剂量会导致CT图像出现噪声、伪影,引起图像质量下降。这些噪声、伪影经常掩盖细微但