病理镜检文本的结构化处理系统设计与实现

被引量 : 3次 | 上传用户:mdtuyen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
病理报告作为医疗文档中的非结构化数据之一,是诊断病理学中的重要文档。它是病理医生根据病理活检结果,采用规范化的自然语言描述形成的文本格式的临床数据。其中,非结构化的文本数据是病理医生做出病理诊断的关键,也是临床医生进行疾病诊断的重要工具之一。当前,病理诊断主要依靠医生针对文本数据的描述要点,依据个人经验做出带有主观性的判断。读取数据的实质是人工抽取信息并进行文本结构化的过程,不仅效率低且不可避免地产生正确率难以保证的问题,并因此导致漏诊误诊。为此,本文针对病理报告中镜检文本的数据特征,借助统计分析、文本聚类、中文分词等技术手段,设计并实现了一套适用于此数据的文本结构化系统,以支持自动地提取结构化数据。本文首先归纳出病理镜检文本的数据特征,同时将其作为本文方案的基础支撑,并依据其特征完成了短句切分、特征词标记等文本预处理过程,接着给出了病理镜检文本数据的结构化处理流程。以此为基础,本文设计了系统的总体架构,且依次阐述了三个核心模块:文本预处理模块、构建病理字典模块、结构化处理模块的主要功能及流程。然后,为实现构建病理字典的目的,本文提出了基于文本聚类的关键词抽取算法,其输入为聚类后的相似性短文本,实现了提取同类短句核心词的功能。之后,结合文本数据的书写模式及规范进行词汇扩展,最终得到由属性词和描述词所组成的病理字典。最后,依赖病理字典,采用镜检文本的结果化处理算法,实现了从文本数据中抽取键值对形式的术语词,并通过添加否定检出得到的否定词得到了语义完整的结构化数据。同时采用web站点形式,建立了面向用户的结构化数据抽取系统,为提高系统的准确率,向用户提供了反馈接口,通过此过程实现字典的更新。为了验证所提出算法的有效性,本文对真实数据集进行测试,通过人工对病理字典及抽取的结构化数据进行检测,证明其能够达到预期目的。这不仅克服了通用分词软件的领域不适用性,实现自动化结构数据抽取,并且可以为将来的疾病分析提供有力的数据支持。
其他文献
煤是我国最重要的能源,直接关系着国家的经济效益以及社会效益。随着我国科技经济的不断发展,社会对煤炭能源的需求量在日益增加,煤炭的开采技术需要面向经济建设和市场。本
论述了塑料抗氧剂、光稳定剂的防老化基本功能及评价方法,特别介绍了受阻胺类光稳定剂的抗热氧老化功能,提出了设计配方时选用抗氧剂、光稳定剂的参考原则。
曲靖市煤炭资源丰富,在推进工业化进程中,曲靖市通过充分发挥煤炭资源优势,实现“煤电一体化”、“煤磷电一体化”、“煤电冶一体化”等以煤炭为基础的产业链连接,基本形成了
针对现场可编程门阵列(FPGA)远程升级的需求,介绍了几种可实现的适应远程升级的FPGA配置方法。通过对器件配置原理的分析比较,结合工程实践,重点提出了两种基于主动串行(AS)
建立了地空导弹兵混编群作战模型。该模型是一个离散、带有战斗力损耗的战斗状态向量空间模型。在混编群作战模型的基础上,给出地空导弹兵混编群火力运用目标函数,明确地空导
建筑工程施工阶段,如何改善和加强施工阶段的安全防范措施及管理,是建筑工程施工的重点。主要针对建筑工程施工阶段的安全风险管理问题进行探讨,并对安全风险做出合理分析,提
目的:探讨10%高渗盐水治疗急性大面积脑梗塞的临床疗效及安全性。方法:采用前瞻性随机对照研究,纳入2018年佛山市第一人民医院神经内科住院的急性大面积脑梗塞患者42例,随机
现代信息系统中新型软件架构层出不穷,软硬件和网络通讯之间的相互关联作用日益复杂,加大了系统性能瓶颈查找的难度。文章探讨如何通过多智能代理技术等方法,截取、分析和回
<正>20世纪90年代末,报纸同质化竞争加剧。1998年3月,时任华西都市报总编辑的席文举提出"迈向主流媒体"的口号,其后国内主要的都市报纷纷效仿,全国
新戊二醇与三氯氧磷反应制得新戊二醇磷酰氯,再以该磷酰氯与乙二胺反应制得无卤膨胀型阻燃剂新戊二醇乙撑磷酰胺〔1,2-(5,5-二甲基-1,3-二氧-2-磷环己膦酰胺基)乙烷〕。讨论