论文部分内容阅读
甲状腺超声检查报告中记录着超声检查影像以及诊断结果,其中超声检查影像表现部分蕴含着非常丰富的知识,主要包括各种解剖实体和病理实体,以及各个实体之间的关系。但是它们大多都以半结构化甚至非结构化的方式进行存储,并且存在着很多叙述性质的文本信息,这对于存储和挖掘其中包含的临床信息都非常不利。在新的技术条件下,对医学影像报告进行结构化处理,从杂乱、冗余、高复杂度的非结构化超声报告中提取出规范的、有价值的数据,并且得到其中的知识表示逐渐成为非常重要的研究领域。
本体是一种知识建模的工具,主要应用于语义共享、知识检索和分类、语义网等领域。现有构建本体的方法大多采用手工构建,既费时又费力,而通过本体学习的方法自动化构建本体是该领域的研究热点。本体学习即通过机器学习或统计学的途径自动获取本体信息。通过本体可以将医学知识显性化,并采用本体描述语言对知识进行描述、发布和共享。本文在本体学习的基础上,提出了一种基于领域本体驱动的甲状腺超声报告结构化处理方法。首先基于甲状腺超声报告的特征构建了甲状腺超声领域本体;然后基于甲状腺超声领域本体结合属性匹配的思想,提出了甲状腺超声报告结构化扫描算法,实现了甲状腺超声报告的批量化结构化处理。本文主要研究内容包括如下几个方面:
1)本文提出了一种基于解剖知识驱动的甲状腺超声领域本体构建方法。该方法主要包括两个任务。第一个任务是语义子树的生成。该任务分为四个步骤:(1)基于甲状腺超声领域解剖知识和病理学相关知识,构建甲状腺超声领域解剖基础框架;(2)基于解剖框架对文本报告进行定位,确定分支;(3)关系提取。针对甲状腺超声报告中腺体背景和局灶性病变部分不同的特征运用两种不同的方法进行关系提取;(4)添加关系至框架生成语义子树。第二个任务是通过合并语义子树来获得甲状腺超声领域本体。
2)提出了两种不同的甲状腺超声报告语义关系提取方法。通过分析甲状腺超声报告不同模块的特征,基于腺体背景和甲状旁腺区部分简单句式提出基于依存分析的语义关系提取方法;基于局灶性病变部分复杂句式提出基于依存子树和最短依存路径的跨句语义关系提取方法。结合这两种方法,可以很好的对甲状腺超声报告中语义关系进行提取。
3)基于上文构建的甲状腺超声领域本体,结合属性匹配的思想,提出一种基于领域本体的甲状腺超声报告结构化扫描算法。首先采用Dewey编码存储甲状腺超声领域本体树,便于根据结点的编码迅速定位结点位置;其次通过扫描部位词表,给不同层次的部位词赋予不同的权值;接着通过逐词扫描报告,与甲状腺超声领域本体树进行模糊匹配、定位、擦除等操作;最后集合所有待输出结点编码,将文本报告结构化。针对医学文本的特殊性,本方法能够获得准确率较高的结构化结果,且结构化的效率较高。
本文使用上海市某三甲医院提供的真实临床数据,通过不同的实验表明本文方法能够达到预期目标,精确度相较于其他方法也有所提高。
本体是一种知识建模的工具,主要应用于语义共享、知识检索和分类、语义网等领域。现有构建本体的方法大多采用手工构建,既费时又费力,而通过本体学习的方法自动化构建本体是该领域的研究热点。本体学习即通过机器学习或统计学的途径自动获取本体信息。通过本体可以将医学知识显性化,并采用本体描述语言对知识进行描述、发布和共享。本文在本体学习的基础上,提出了一种基于领域本体驱动的甲状腺超声报告结构化处理方法。首先基于甲状腺超声报告的特征构建了甲状腺超声领域本体;然后基于甲状腺超声领域本体结合属性匹配的思想,提出了甲状腺超声报告结构化扫描算法,实现了甲状腺超声报告的批量化结构化处理。本文主要研究内容包括如下几个方面:
1)本文提出了一种基于解剖知识驱动的甲状腺超声领域本体构建方法。该方法主要包括两个任务。第一个任务是语义子树的生成。该任务分为四个步骤:(1)基于甲状腺超声领域解剖知识和病理学相关知识,构建甲状腺超声领域解剖基础框架;(2)基于解剖框架对文本报告进行定位,确定分支;(3)关系提取。针对甲状腺超声报告中腺体背景和局灶性病变部分不同的特征运用两种不同的方法进行关系提取;(4)添加关系至框架生成语义子树。第二个任务是通过合并语义子树来获得甲状腺超声领域本体。
2)提出了两种不同的甲状腺超声报告语义关系提取方法。通过分析甲状腺超声报告不同模块的特征,基于腺体背景和甲状旁腺区部分简单句式提出基于依存分析的语义关系提取方法;基于局灶性病变部分复杂句式提出基于依存子树和最短依存路径的跨句语义关系提取方法。结合这两种方法,可以很好的对甲状腺超声报告中语义关系进行提取。
3)基于上文构建的甲状腺超声领域本体,结合属性匹配的思想,提出一种基于领域本体的甲状腺超声报告结构化扫描算法。首先采用Dewey编码存储甲状腺超声领域本体树,便于根据结点的编码迅速定位结点位置;其次通过扫描部位词表,给不同层次的部位词赋予不同的权值;接着通过逐词扫描报告,与甲状腺超声领域本体树进行模糊匹配、定位、擦除等操作;最后集合所有待输出结点编码,将文本报告结构化。针对医学文本的特殊性,本方法能够获得准确率较高的结构化结果,且结构化的效率较高。
本文使用上海市某三甲医院提供的真实临床数据,通过不同的实验表明本文方法能够达到预期目标,精确度相较于其他方法也有所提高。