基于中文电子病历的跨科室组块分析研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:liongliong417
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
21世纪,“互联网+”已经成为社会的热点话题,而“互联网+医疗”正是政府积极推广的新型在线医疗卫生模式,其中包含了构建电子病历等重要举措,大量的医疗信息数据随之产生。电子病历正是最重要的信息之一,它包含患者丰富的个人医疗信息,利用自然语言处理技术,充分学习其中的健康知识将会促进智慧医疗的长远发展。针对研究课题,本文进行了以下的研究:(1)参照PCTB语料标注规范,修改适用于中文电子病历的组块语料标注规则并构建组块分析标注语料。本文参照PCTB的语料标注规范,针对中文电子病历的特点,提出适用的修改及补充规范。在实验室前期构建的基础上,采用自动化识别加人工校对的方式获得了306份的包含分词、词性、组块标注的中文电子病历,语料库标注一致性达到98%。(2)开展基于SCL算法的中文电子病历跨科室组块分析研究。本文在SCL算法的基础上,对生成的相关性变量进行离散化,改进的算法提升了实验效果,在词性和组块分析任务中,F值都有约1%的改进。(3)开展基于TrAdaBoost算法的中文电子病历跨科室组块分析研究。本文在TrAdaBoost算法的基础上,进行多分类任务的算法适用,提出了辅助预料选择算法,利用主动学习的方法筛选目标科室的辅助标注语料,三组交叉验证实验中,TrAdaBoost算法的F值平均提升了5%以上,而辅助选择算法在此基础上平均提升了约0.6%。(4)结合上述两种算法进行双重迁移学习,同时基于特征和实例对数据进行知识迁移,并引入辅助选择算法,最后的实验结果较Baseline的结果仍然有着显著的提升,具有一定的实用性。综上所述,本文在中文电子病历上构建了组块分析语料,利用两种不同的迁移学习算法进行跨科室组块分析,对两种算法都提出了改进方法并获得了实验的有效验证,最后,结合两种方法进行双重迁移并证明算法具有可用性。
其他文献
随着软件业的不断发展,尤其是网络应用的快速发展,软件安全问题已经成为计算机安全领域中最值得关注的一个问题。计算机安全领域不断涌现新的突破和新的发展,这些新的技术给
数据广播是目前移动环境中一种有效的数据访问方式。服务器将热点数据通过公共信道周期性地发送出去,用户侦听广播信道并及时获取自己感兴趣的内容。与传统的点对点数据访问
学位
图像分割是图像处理中的一项关键技术,其目的是将目标和背景分离,为后续处理提供依据,其结果直接影响到其后的信息处理过程。然而到目前为止,对图像分割的效果好坏,还没有一
面对信息化社会层出不穷的海量级信息,信息系统已成为信息处理必不可少的强有力的工具,信息系统的安全也越来越受到人们的广泛重视。而作为信息系统底层支持的操作系统的安全
在当今信息时代,计算机网络在人们的日常生产、生活中扮演越来越重要的角色。一旦网络中发生故障,总是要求网络工程师和网络管理人员能迅速、准确的对故障的类型以及故障的根
煤矿井下环境恶劣,给煤矿的安全生产和矿工的身心健康带来很大威胁。为了煤矿安全生产和管理以及矿工健康,有必要对矿井环境条件和矿工生命体征进行监控。无线传感器网络是一
互联网体系架构正面临着严峻的安全和管理挑战,迫切需求具备可信性和可控性特征的新架构。已有的网络体系结构要么是基于边缘论和面向非连接的设计思想,导致分组传输路径不可
随着Internet技术的快速发展,基于B/S结构的高校教务管理系统如何在使用过程中避免非法修改、事后否认、非法截取等行为已经直接威胁到高校教务系统的使用安全。现代密码理论
学位
随着互联网时代的飞速发展,广告载体逐渐由传统的报刊、杂志等媒介向网络转移,计算广告由此衍生出来。根据广告展现给用户的形式,可以将其分为展示广告和搜索广告,本文只对搜索广