基于多语义融合的中文电子病历命名实体识别研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:sujie0888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,人工智能逐渐渗透到社会生活中的各个领域。作为与社会生活密切相关的医疗领域,其与人工智能结合的医疗信息系统建立带来了大量的电子病历文本数据。准确快速地提取电子病历中的医疗实体,将非结构化的文本,转变为可供计算机识别的结构化文本,对医院的医疗信息智能化管理具有非常重要的意义。在中文电子病历文本中,医疗领域的词汇具有一定的专业性,目前的中文电子病历命名实体识别仅仅将通用领域的命名实体识别迁移到医疗领域,而专业的医疗词汇容易给实体边界的划分带来困难,造成词汇边界模糊的问题。现有的中文电子病历数据集样本较小,部分实体占比较大,会导致模型预测偏向实体类型较多的结果。为解决以上问题,本文结合汉字的部首和四角信息,提出了多语义融合的中文电子病历命名实体识别方法,主要的贡献可以总结如下:1)提出改进BiGRU-CRF的中文电子病历命名实体识别模型。使用ALBERT获取动态向量表示,Mogrifier GRU提取特征,在GRU的基础上进行隐藏层和输入层之间的交互,丰富特征提取层对文本语义关系的提取能力,获得深层次的电子病历文本特征。2)提出多语义融合的中文电子病历命名实体识别模型。在上述模型的基础上,使用基于字的中文电子病历命名实体识别模型,将字、部首和四角向量融合,学习汉字最基本的字形结构信息,获得医疗专业词汇重要的释义表示,提高模型对医疗文本信息的提取效果。同时提出了向量标签标记策略,用二分类器过滤电子病历文本中的非实体区域,对向量所属的实体类型进行标记。从而在模型中引入每个字符对应的实体标签信息,减少样本分布不平衡带来的影响,加强模型对不同类型实体的学习。3)对提出的模型在中文电子病历命名实体识别数据集上进行了验证和分析。实验结果表明,通过对比实验分析使用加强隐藏层和输入层交互的Mogrifier GRU可以有效提高模型的识别效果,并分析字形信息和向量标签标记策略对模型带来的影响,通过消融实验分析模型各部分的实际效果。最后在通用领域数据集上进行对比分析,进一步验证模型的有效性。
其他文献
随着云存储技术的不断完善和发展,已经被越来越多的机构、公司和个人接受,成为云计算中一项基础的Iaa S服务。用户把由各种异构设备产生的数据上传到云端进行分析处理和长期存储。然而,存储在云端的数据可能会因为软件错误丢失或是被恶意损坏。数据完整性作为可靠云存储中的一个核心安全问题近年来受到越来越多的重视。为了确认数据被是否完好的存储在云端,研究人员提出了云数据审计方案。数据审计方案使验证者能够在不拥有
学位
眼底血管自动分割给糖尿病和高血压等病症诊断提供重要的临床信息,是计算机辅助眼底诊断糖尿病和高血压等病症的基础,其分割效果影响医师诊断的准确性,故眼底血管自动分割研究具有重要的理论意义与工程应用价值。由于眼底血管结构复杂多样,现有算法不能满足计算机辅助医师对医学图像中血管的自动分割要求。因此,本文围绕提升算法的整体分割性能、提升细小血管精度、解决复杂拓扑结构血管的分割问题展开研究。本文主要研究内容如
学位
随着云计算的快速发展,越来越多的用户选择将数据存储在远程服务器,以节省本地存储所用资源。如何验证用户远程存储在云端数据的完整性,成为许多研究人员的研究热点。与此同时,云端方面的用户身份信息丢失、相关数据泄露、用户数据被恶意篡改以及服务器的硬件故障等诸多数据安全性问题都会带来难以预估的后果。虽然人们提出很多云审计方案,但大多数方案存在用户信息认证开销大、数据存储效率不高以及不能有效进行动态更新数据等
学位
近些年随着网络的普及,越来越多的基于位置服务(Location Based Service,LBS)的应用变得很受欢迎,是人们日常生活中不可缺失的一部分,如城市交通路线规划,用户搜索附近服务等。由于位置数据中包含用户大量的敏感信息,如查询地址信息,因此在用户使用位置服务时,不断地向位置服务提供商上传位置数据并直接发布真实的位置数据,会导致用户的隐私面临泄露风险。针对这一问题,许多位置隐私保护方法被
学位
随着互联网的高速发展,微博逐渐成为人们分享与获取信息的重要平台,并吸引了数以亿计的用户。庞大的用户群体导致微博平台产生的数据呈指数级增长,用户无法迅速有效地获取到其感兴趣的博文。因此,微博个性化推荐技术应运而生。传统微博推荐主要围绕基于内容的推荐展开,但由于用户个体数据较稀疏,无法全部提取用户兴趣特征。具有社交关系的用户间,通常体现相似的兴趣爱好。因此,部分学者基于用户社交关系研究微博推荐,缓解用
学位
图像作为人们获取外界信息的一种载体,与文本相比,它包含了更为丰富的信息,然而,由于扫描和传输设备等问题,接收到的图像往往质量不佳,这些问题严重影响了图像的后续读取与分析等任务,因此,图像去噪技术已成为当前计算机视觉领域的一个重要课题,与此同时,这一方向也引起了众多学者的重视,并利用不同的技术,提出了很多去噪算法。最近,卷积神经网络凭借其较好的特征学习能力,在图像去噪领域获得了较好的应用,然而,这些
学位
布尔函数是密码体制设计和分析中不可或缺的工具,作为对称密码的核心部件,其密码学性质决定着密码体制的安全性,设计和构造满足多种优良密码学性质的布尔函数一直是密码学的重要研究问题之一。目前构造和设计性质优良的布尔函数主要通过理论构造和计算机技术来构建,而理论构造易于构造出单一性质优良的布尔函数,构造满足多种优良性质的布尔函数一直是较为困难的问题。计算机算法可以平衡多种密码学性质,因此,本文主要研究基于
学位
随着我国经济建设和各项事业的蓬勃发展,公路里程数大幅度增长,繁重的公路养护任务也随之而来。路面病害检测是养护工作中的重要任务之一,而裂缝是路面病害的突出问题。快速、准确地自动检测路面裂缝,是维护和监测复杂的运输网络系统的关键步骤。针对路面图像存在的对比度低、噪声强等问题及其中裂缝复杂拓扑结构、连续性差等特点,本文对路面图像裂缝检测方法展开研究,主要研究内容如下:(1)提出基于多尺度注意力的路面图像
学位
在线评测(Online Judge,OJ)系统是一种在线学习平台,用户通过解决系统中的编程习题提高自身编程能力。面对OJ系统中海量习题资源引发的信息过载,用户很难找到与自身编程能力匹配的习题,最终浪费了时间和精力。习题推荐能够挖掘用户的能力和偏好,提供最适合用户的习题,因此已经被广泛应用到OJ系统中。现有的OJ习题推荐方法仅考虑用户能否正确回答习题,缺乏对习题信息的利用,也忽略了用户的答题意愿,在
学位
科技文档或网页中存在大量图像,其中包括数学公式图像和其他图像。数学公式图像存在只包含数学公式的情况,同时也存在公式穿插在文字、坐标系等其他元素之间的情况。为了筛选并收集含有数学公式的图像供他人学习或进一步研究,本文提出一种基于特征关联加强和GMP(Global Muti-scale Pooling)的数学公式图像筛选模型FCGM-Ne St。通过充分的对比实验和消融实验,验证了该模型的有效性,然后
学位