临床文档结构化处理研究与系统实现

来源 :东华大学 | 被引量 : 8次 | 上传用户:wanglin0824
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着国内各大医院信息化建设进程的不断发展,各类临床信息系统为医院积累了丰富的临床数据资源。临床数据中所包含的海量医疗活动信息,不仅是医疗、教学、科研的第一手资料,同时也是对医疗质量、技术水平、管理水平等进行综合评价的依据。想要对临床数据进行分析和总结,首先需要对其中的叙述性医疗文本数据进行处理。传统对叙述性医疗文本数据的分析主要依赖人工处理,医生、科研人员和管理员通过浏览和研读这类医疗文本数据,从中抽取出所需要的信息。但在当前医疗大数据的背景下,呈几何级增长的诊疗数据使得从中获取所需要的信息面临更多的困难。同时,大量的非结构化医疗文本数据也成为医院之间信息共享的障碍。因此,对非结构化临床医疗数据进行结构化处理研究具有极其重要的意义。现有医疗文本数据的结构化处理可以分为以设计规范的病历系统为主的前结构化处理和以利用自然语言处理技术为主的后结构化处理两大类。为充分利用已有的历史临床数据资源,本文结合临床医疗文本数据自身的特点,借助规则提取、文本聚类、统计分析等技术手段,设计并实现了一个完整的医疗文本数据后结构化处理系统,以支持非结构化医疗文本数据的自动化结构数据转换。本文首先以临床文档中病理报告的巨检病理文本数据为例,归纳总结出病理文本数据的层次结构和书写特点,并设计了整体的结构化处理流程。在此基础上,本文设计了临床文档结构化处理系统的总体框架,分别介绍了其三大核心模块:临床文档数据预处理模块、病理样本描述模板提取模块和临床文档即时结构化模块,并对各模块的主要功能和任务进行了详细阐述。然后为解决病理样本描述模板的提取问题,本文建立了一个病理样本名词库,并提出一种基于规则的指标名提取算法,通过词库、词性以及字词在文本片段中的位置等信息综合筛选出病理文本中的指标名。在此基础上,结合自定义的文本相似度计算方法,提出一种基于词典的文本聚类算法,用以初步确定每个病理样本描述模板成员的提取范围。再通过统计参数idf和c-value值的筛选,得到最终的病理样本描述模板。最后,对新录入的临床医疗文本数据,通过套用现有的病理样本描述模板,达到即时结构化的目的。同时,系统提供了反馈优化功能,可以通过修改词库、向待处理库添加数据、修改规则参数甚至修改模板文件来实现对系统的更新优化。此外,本文提出的临床文档结构化处理系统采用b/s架构,使用web技术实现了面向用户的界面操作接口,用户可以方便地通过页面操作对系统进行模板训练和数据结构化处理操作。为验证本文提出的结构化处理方法的可用性,本文在真实数据集上进行测试。实验证明,经过本文提出的结构化处理方法处理,平均每条临床医疗文本数据的结构化正确率为82.8%,对比实验也再次证明了本方法的有效性。
其他文献
人体跟踪是运动人体视觉分析中非常活跃的一个课题,其在智能监控领域中广泛的应用前景和潜在的经济价值激发了广大科研工作者的浓厚兴趣,也使它成为研究的热点问题之一。本文
主元分析作为一种多元统计分析方法,广泛应用于数据处理和简化中。这种方法试图通过对数据协方差矩阵进行对角化,从而找到数据中最主要的元素和结构,去除噪音和冗余,对原数据进行
由于受成本的制约,传感器节点的能量、处理能力、存储能力都十分受限。因此,无线传感网路由算法的首要目标是节能,算法也不能有太高的运算复杂度和空间复杂度,运行在传感网上
或许在未来的20年里,WebService将会成为软件开发领域最热门的话题,随着WEB2.0的迅速普及,如何利用好WebService这一新技术就成为一个非常重要的课题。   尽管SOA(ServiceOri
相似连接算法在数据清理、数据集成和重复网页检测等领域有着广泛的应用。相似度的度量方法有多种,包括Jaccard相似度,Cosine相似度,Dice相似度和Hamming距离等。本文中主要
随着Android智能手机的普及,其系统安全问题越来越受到人们的重视。普通用户日常使用Android手机时问长,系统内通常会储存重要文件和隐私信息。相对于传统桌面设备,用户行为
企业以项目管理为主线,为参与项目活动的所有干系人提供了信息共享的平台,并全面记录和控制各项经营活动,达到项目管理要管理一切事和人的目的,提高管理工作效率。本文系统就是以
随着业务数据的积累,特别是网络数据的快速增长,利用科学的手段快速处理数据,从多个不同的角度分析数据的需求不断增长。多核CPU,以及多核CPU集成GPU硬件架构的出现为快速处
随着科技技术的快速发展,越来越多的领域采用信息技术进行相应的操作和数据管理。此方式与以往的数据处理相比,简化了操作,提高了工作效率,但是随着信息化的不断推进,数据的
IP网络的迅速发展使其成为当今人们通信的主要基础设施,随着IP网络规模快速地扩大,传输速率日益增长,网络结构愈加复杂,这就需要对我们对IP网络的性能和行为进行测量,对IP网