基于语义依存分析的医学超声文本数据结构化处理

来源 :吉林大学 | 被引量 : 0次 | 上传用户:sunnymurder
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,医院信息系统(HIS)、医学影像系统(PACS)、电子病历(EHR)、实验室信息系统(LIS)和放射信息管理系统(RIS),这一系列医疗系统每时每刻都在产出大量数据,从初始的MB到GB,从TB到PB无限增长,但是对于这些医疗大数据的有效利用问题并没有得到解决。并且对大数据处理过程中的实时性、有效性问题也有很高的要求,传统的分析方法无法应对。临床医学文本报告作为一个关键性的医疗信息载体,为医生诊断与科研提供了强有力的数据支持,但是,采用自然语言编写的医学文本报告基本上是非结构化的,无法直接用于计算机分析和处理。而临床医学文本数据存在较强的专业性,涉及到很多专业的医学知识,在语法上使用领域固定格式,这使信息的抽取面临着极大的难题。在信息抽取中,关键词提取在自然语言处理领域有着大量的应用,如何快速、准确的从文本中抽取关键词已经成为文本处理亟待解决的关键性问题。现有的关键词提取方法有很多,但是并没有针对于医学领域的关键词提取方法。传统的关键词抽取方法用于医学领域的准确率和通用性仍有待提高。为此,本文提出了一种针对临床医学文本数据加以结构化表达的方法,此方法首先通过基于词共现概率的分词矫正方法来获取医学描述语言内的专业的医学术语,再采用生成的专业医学术语库来为新一轮的中文分词操作提供帮助,使分词质量得到显著提升。然后,依存语法树的构建是基于对单句中词之间的语义关系来实现。最后,从语法树中识别和抽取医学文本中的重要指标和对应的指标值,最后得到结构化的键值对数据。本文实验的数据应用了真实的超声文本数据,实验结果显示分词矫正方法能使中文医学文本的分词质量大幅提升,准确率可达97.4%,并在最终的结构化表示中得到84.2%的准确率和87.1%的召回率。本文提出的结构化表示方法能够识别医学文本中的多种依存语法,具有较好的通用性。
其他文献
防区外陌生地域的突防与搜索是无人机的典型任务形式之一。任务过程包括复杂环境下的快速突防和对任务区的有效覆盖搜索两个阶段,受到复杂的突防环境、无人机机动能力限制以
<正>目的介绍各种啮齿类动物模型的制作方法、病理改变、行为学改变并比较各种模型的优缺点。方法搜集近年来国内外发表的有关血管性认知功能障碍啮齿类动物模型的相关论文,
会议
<正>《课程标准》在数学的地位中明确指出:"数学在提高人的推理能力、抽象能力、想像力和创造力等方面有着独特的作用。"在学习内容中又指出:"数学学习的内容应当是现实的、
会议
笔者对下文阐述了施工控制的目的、原理和方法及桥梁施工监控的要点、方法进行详细的论述。
摘要:激发幼儿阅读的兴趣,培养幼儿对书面语言的敏感性,帮助幼儿认识语言符号和图画符号的对应转换关系,掌握早期阅读的方法,培养幼儿将早期阅读经验迁移到其他活动中去的能力,养成良好习惯,提高幼儿观察、想象和语言思维等综合能力。   关键词:幼儿早期阅读能力途径和方法    随着学前教育理论和实践研究的不断深入,幼儿早期阅读教育开始引起人们的关注,对幼儿早期阅读教育的研究已从讨论其重要性发展为研究如何指
<正>源远流长的中国传统文化,是人类文明发展的重要成果,是世界上自成系统、独具特色的文化,也是中华民族生生不息、团结奋进的不竭动力,是中华民族智慧的结晶和精神风貌的体
会议