基于Spark平台的医疗文本数据结构化处理研究与实现

来源 :东华大学 | 被引量 : 5次 | 上传用户:tmsyh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的医疗文本结构化处理方法基本都是医生根据医疗临床经验对医疗文本数据进行人工处理。然而,这种医疗文本结构化处理的方式不但浪费时间和精力,并且结构化处理的准确率无法达到预期的要求。在大数据时代,日益增长的医疗数据给整个医疗行业带来了全新挑战:医院给病人进行诊疗,诊疗过程中会有大量的医疗文本生成。其中,绝大部分的医疗文本数据属于半结构化或非结构化数据。通过将半结构化或非结构化的医疗文本数据转化为计算机能够分析和处理的结构化数据,可在科研应用、临床诊疗、数据共享等方面实现新的突破。医疗文本结构化就是将半结构化或非结构化的医疗文本通过结构化处理转换为结构化数据。目前医疗文本的结构化处理主要分为两个方面:前结构化处理和后结构化处理。前结构化处理主要是通过规范的病例系统进行结构化处理,后结构化处理是通过自然语言处理来对医疗文本进行结构化处理。医疗文本结构化处理的目的就是从医疗文本中自动地提取指标名称和其对应的指标值。为此,本文首先归纳出医疗文本的结构特点和语言特点。根据这些特点,本文提出了基于词向量的医疗文本结构化处理方法。该方法主要有三个核心部分:文本预处理、新词发现和信息抽取。文本预处理需要对数据进行清洗、集成与转换以及规约,使得数据具有一致性,为后面的结构化处理提供准确的数据。新词发现是基于词向量发现医疗文本中的医疗专业术语。使用Google开源词向量工具word2vec对文本进行训练,把文本中的词转化为n维空间词向量;根据词与词之间的内部结合度,再结合信息熵、词频等统计信息,发现新词,构建用户自定义的词库。信息抽取主要负责设计信息抽取规则,提取文本中的关键信息。根据新词发现过程中发现的关键词提取对应的关键信息,并将其组织为结构化数据,完成对医疗文本的结构化处理。本文分别将上述三个部分部署在Spark平台,利用分布式计算,完成对医疗文本的结构化处理。为了检验所提出方法切实可行,随机选取一部分数据作为样本,通过人工抽取的方式对样本数据进行结构化处理。然后与使用本文方法进行结构化处理得到的结果对比,证明本文的结构化处理方法能够达到预期目的。
其他文献
营业税改征增值税(以下简称“营改增”)是今后一段时期许多税务师事务所需要面临的重要改变。根据国家税务总局公告2012年第38号规定,“营改增”试点实施前应税服务年销售额超
报纸
<正>或许在五年之内,人的皮肤就可以通过3D技术进行打印了!一些公司正在研究一种名为生物打印的处理技术,即使用生物细胞和特殊的3D打印机来打印生物器官等产品。培育皮肤是
指示生物是判定水污染重要方法$$   新华网近日报道,我国民间水污染调查逐渐兴起,越来越多的环保组织和志愿者通过实地检测,探究我国河流水质。事实上,除了人们所熟知的理化
报纸
语言学习的过程,可以说是对语言听、说、读、写四个能力的训练提高过程,语言学习的终极目的就是掌握并能够熟练运用这一门语言,“听”作为听、说、读、写这四项技能的首要技
<正>榆叶梅又名小桃红,属蔷薇科李属植物,是北方地区普遍栽培的早春观花树种。其花色、花形美丽,惹人喜爱,尤其是盛花时,深浅不一的桃红色花朵密布于树冠上,灿烂夺目,美丽壮
该文以合肥市长江西路高架快速路的方案研究为例,分工程概要、交通调查与预测、匝道与立交布置、桥型研究和附属设施设计等几部分论述了高架快速路的方案研究进程。其中,着重
课堂教学评价指对在课堂教学实施过程中出现的客体对象所进行的评价活动,其评价范围包括教与学两个方面,其价值在于课堂教学。课堂教学评价是促进学生成长、教师专业发展和提高
干热岩(HDR)是一种绿色低碳、可循环利用的可再生能源,是地热开发研究热点。目前针对地热产能模拟的研究存在热流固(THM)耦合模型考虑因素不全,地热开发效果评价目标单一且缺
随着我国社会经济的发展,建筑业正处在蓬勃发展的阶段,建筑业的发展也是关系城市建设与经济发展的重要事业。在企业发展中,优秀的企业会计信息管理是企业竞争力的表现之一,会
建立了水产品中9种三嗪类除草剂的凝胶色谱-固相萃取-气相色谱-串联质谱(GPC-SPE-GC-MS/MS)分析方法。样品采用乙酸乙酯提取,凝胶渗透过滤,石墨化碳串联氨基柱净化,选择离子