【摘 要】
:
心血管疾病作为一种慢性疾病一直困扰着人类,是危害生命健康的严重疾病之一。因此,利用患者的电子病历信息来自动预测心血管疾病,在智能辅助诊疗中具有重要的应用价值,也是智慧医疗研究方面的热点问题。随着自然语言处理技术的发展,疾病预测方面也迎来了其强劲的发展势头。本文在电子病历实际情况的基础上,提出利用现有成熟的命名实体识别技术识别并抽取导致心血管疾病的风险因素,为疾病预测任务提供了新的思路。由此,本文紧
论文部分内容阅读
心血管疾病作为一种慢性疾病一直困扰着人类,是危害生命健康的严重疾病之一。因此,利用患者的电子病历信息来自动预测心血管疾病,在智能辅助诊疗中具有重要的应用价值,也是智慧医疗研究方面的热点问题。随着自然语言处理技术的发展,疾病预测方面也迎来了其强劲的发展势头。本文在电子病历实际情况的基础上,提出利用现有成熟的命名实体识别技术识别并抽取导致心血管疾病的风险因素,为疾病预测任务提供了新的思路。由此,本文紧紧围绕“如何直接根据风险因素去预测心血管疾病”和“如何融合上下文和风险因素的信息去预测心血管疾病”两个问题提出了对应的预测模型。任务主要包含了风险因素的识别与抽取和心血管疾病预测两个阶段。对于第一个阶段,现有的命名实体识别模型已经发展非常成熟,秉着简单高效的原则,本文选择了Bi LSTM-CRF模型作为风险因素的识别抽取模型。对于第二个阶段,本文的研究内容主要包括了以下三点:(1)针对现有模型不能精确地利用电子病历中所包含的各种有价值的医学信息的问题,本文提出了用于心血管疾病预测的增强型字符级深层卷积神经网络(Enhanced Character-level Deep Convolutional Neural Network,En DCNN)模型。基于半监督的文本区域嵌入(Region Embedding)的字符级模型可以很好地将风险因素及其标签作为整个单元映射到一个向量中,以及下采样(Downsampling)在提高深层CNN的训练效率方面起着至关重要的作用。在人工标注的中文电子病历语料库上,本文的预测模型的F值达到了0.9516,并且预测结果优于大多数以前的相关方法。(2)针对基于风险因素进行心血管疾病预测研究时不能很好地利用电子病历上下文信息的不足,本文提出了一种基于心血管疾病风险因素和电子病历文本序列的方法。该方法采用深度神经网络的注意力机制,将电子病历文本中的字符序列信息与文本中所包含的心血管疾病风险因素进行融合。实验结果表明,该模型提高了心血管疾病预测的性能,F值达到了0.9586,优于相关方法。(3)针对注意力机制只是将注意力集中在上下文的一小部分上,并使用固定大小的向量对其进行汇总,在时间上耦合注意力,通常形成单向注意力的不足,本文提出了心血管疾病风险因素驱动的双向注意力机制(Risk Factor Powered Bidirectional Attention,RFPBi A)网络用于心血管疾病预测。它是一个多阶段的分层过程,表示了不同粒度级别的信息融合,并使用双向注意力机制来获取风险因素的文本表示,而无需进行早期汇总。实验结果表明,该模型的F值达到了0.9424,表现出了不错的性能。
其他文献
氮素是影响森林植被生长发育的重要营养元素之一,目前全球氮沉降呈上升的趋势,氮沉降在增加土壤速效氮的同时也会促进氮在植物体内的累积,最终影响森林植被的生长发育。森林更新一直以来是一个非常重要的生态学过程,影响森林自然更新的其中一个重要因素是凋落物,它对建群种幼苗生长的影响也是国际上针对森林凋落物生态功能研究的热门话题。以往关于凋落物和氮沉降的单独研究有很多,但是,在全球氮沉降大背景下,氮添加与凋落物
在全球气候变化背景下,我国黄土高原降水格局呈现出季节波动增强和极端降水事件增加趋势。降水格局变化势必会引起草地群落特征和物候期发生重要改变。目前,关于降水变化对水分限制的黄土丘陵区草地群落特征和物候期的定位观测试验研究仍然较少。基于此,本研究采用遮雨棚法模拟不同降水变化,共设置7个处理:(DP60:-60%,DP40:-40%,DP20:-20%,CK:0%,IP20:+20%,IP40:+40%
植酸盐作为一种饲料中的抗营养因子可以抑制肉仔鸡对蛋白质、矿物元素、葡萄糖、氨基酸等的吸收,从而影响肉仔鸡的生长发育。植酸酶作为一种重要的饲料添加剂,可以有效的降解家禽饲料中存在的植酸盐并起到释放出无机磷的作用,提高磷在肉仔鸡体内的吸收率,帮助肉仔鸡正常的生长和发育。但植酸酶本身作为一种蛋白极易受到外界环境中不利因素的干扰而丧失活性,限制了植酸酶的使用范围和条件。使用无毒、廉价、生物降解性好和生物相
聚类算法是数据分析中的一项重要技术,它在各个研究领域中都有着广泛的应用。简单的来说,聚类算法就是对数据自身的属性进行分析,然后根据属性之间的相似度关系将它们划分为多个簇类,使得簇内数据对象之间的相似度关系尽可能大,簇与簇的数据对象之间相似度关系尽可能小。本文着重研究了密度聚类算法,并针对它的一些问题提出改进算法,将改进后的算法应用到电影推荐当中,不仅减少了算法的计算量,还提升了推荐性能。具体的研究
随着多媒体信息技术的不断发展,多媒体信息的传输已经成为了日常生活中至关重要的一环。由于现在互联网空间中存在着大量多媒体信息,如何将需要的信息从海量无关信息中准确检索出来已成为目前多媒体信息领域的热点问题。本文从语音检索技术切入,对如何在密文语音中利用感知哈希检索出需要的语音进行了一系列研究。本文主要对利用特征变换生成感知哈希序列,语音加密技术,语音检索技术等等进行了研究。本论文的主要工作概括如下:
随着大数据、云计算等技术的快速发展,数据的安全性变得尤为重要。为了确保数据的安全,数据拥有者在将数据上传到云服务器之前要对数据进行加密,且加密后的内容不具备明文的特性,即使攻击者获取到云端服务器的加密数据也不能从中得到任何明文与密钥相关的信息。云服务器可以对密文进行检索,这样既节省了本地的存储空间,又提高了数据隐私安全。可搜索加密技术的提出很好的解决了如何实现服务器对密文数据的高效检索问题。可搜索
车联网通过车与车、车与路等实体之间的相互联系,实现信息共享,以此提高交通效率。但攻击者可以通过无线信道窃取、篡改车辆发送的消息,从而破坏车联网的正常通信,威胁车联网的安全,并有可能引发严重的交通事故。由于车辆的高速移动性,使得节点之间的通信必须在有效时间内得到认证,因此,设计安全高效的车联网消息认证方案尤为重要。本文利用边缘计算和聚合签名等技术,结合基于身份的密码体制、异构聚合签密和无证书聚合签名
随着在线教育的快速发展,在线学习平台积累了丰富的试题资源,使学习者面临“信息过载”和“学习迷航”等问题。利用学习平台所积累的学习者行为数据和历史作答数据,评估学习者认知水平,结合知识结构进行试题推荐技术研究,对于提升用户的学习效率优化学习路径,具有重要应用价值和研究意义。认知心理学理论所构建的传统认知诊断模型在评估学习者认知水平通常基于静态场景,模型难以反应学习者的行为与试题之间的复杂关系,而基于
随着互联网应用系统的广泛使用,微信、微博和百度等平台产生了海量的短文本数据,如何对这些数据进行有效的管理和运用成为自然语言处理领域的研究重点。文本聚类作为一种无监督学习技术,既不需要对数据标签进行手工标记,也不需要提前训练数据处理模型,具有较强的数据加工能力和领域适应性,被广泛应用于舆情监管、兴趣挖掘、文档整合等领域。短文本数据具有特征稀疏性、语法不规范性等特点导致传统的文本聚类方法在短文本聚类中
青杨(Populus cathayana Rehd.)由于耐干旱、生长快,成为防风固沙的先锋树种和良好的用材树种。但随着青杨人工林面积的日益扩大,栽培管理模式的单一,杨树溃疡病的发病率逐渐增加,严重制约了林业的发展。为探明丛枝菌根真菌(Arbuscular mycorrhizal fungi,AMF)在提高青杨抗溃疡病方面的作用,本文研究了青杨接种AMF异形根孢囊霉(Rhizophagus irr