电子病历文本挖掘关键算法研究

来源 :东北大学 | 被引量 : 10次 | 上传用户:yangjianguo20
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着医疗技术的飞速发展和医疗IT系统(EHR/PACS/HIS/LIS等)的普及应用,海量、分布、异构的医学数据随之产生。同时,医疗行为越来越依靠对数据的判断,且随着医疗设备种类覆盖面越来越广,数据精度的逐渐提升,临床诊断也正在从定性判断向定量分析转变。电子病历记录了患者详细的诊疗过程,数据内容丰富,因此,开展电子病历文本挖掘对于提高临床诊疗效率和水平具有重要意义。本文基于临床产生的大量电子病历数据,通过数据预处理、疾病文本聚类、诊疗模式挖掘和病历关联分类关键算法的研究,发现病历中有价值的规则、模型,并应用于临床决策支持系统。本文创新性地完成以下工作。(1)针对电子病历数据存储结构不统一、部分数据项缺失、数据项值不标准,同义或否定表达导致信息抽取困难等问题,本文提出了一种基于元数据的病历清洗算法。首先系统地定义电子病历元数据库,包括用于抽取、加载的技术元数据和用于数据值标准化、转换的业务元数据;然后采用数据适配器模型实现病历数据在线自动抽取、转换和存储。针对清洗后病历中存在的大量非结构化数据,提出了规则与条件随机场相结合的病历实体识别算法,为后续的算法研究提供结构化的病历数据。(2)针对电子病历数据中疾病命名不统一、不标准,缺乏疾病命名分类标准问题,本文提出了一种面向短文本的疾病层次概念聚类算法。首先基于病历中获取各种疾病诊断文本,采用自适应的疾病中心概念聚类方法,实现疾病同义文本的识别;然后采用基于潜在概念的疾病层次概念聚类方法实现层次化的疾病分类标准构建。同时针对疾病文本的特点,提出了一种基于集合的快速短文本相似度量方法。实验结果表明该方法可以快速准确地对疾病文本进行同义识别和层次概念构建。(3)针对关系模式挖掘算法缺乏对数据项间分类关系的考虑或分类关系单一、算法效率低问题,本文提出了一种基于多层多分类的诊疗关系模式挖掘算法。该算法可以适应泛化、聚合、关联和依赖四种分类关系类型,有效去除了冗余的关系模式。同时,该算法提出一种多层图数据结构和多层遍历方法,将病历的事务数据和分类关系数据融合在一起,实现关系模式的快速查找,避免传统方法多次扫描数据库的问题。(4)在病历分类研究方面,基于神经网络的疾病分类方法应用广泛,但对于训练数据的数量都会有一定的限制,并且对于新的病历内容需要重新训练模型,扩展性不强,训练时间较长。关联分类方法虽然可以根据分类规则快速构建分类模型,但是缺乏对分类规则间耦合关系的考虑,且缺乏统一的分类判别模型。本文提出了一种基于神经网络的关联分类算法,该方法能够实现神经网络快速地结构建立和参数设置。同时为关联分类方法的决策过程提供一种通用、定量的描述模型。为验证上述算法的有效性,本文将上述挖掘算法分别应用到临床病历挖掘系统和病历语义检索系统,实践表明上述算法满足临床辅助决策应用需求。
其他文献
作为高科技电子信息企业,创新是生存和发展的关键,而九洲曾经由于人才极度匮乏,使科研开发能力受到严重影响。九洲深刻地意识到人才兴企才是唯一出路。
所有生产经营活动按规范运行,企业自主运转;所有部门及其员工按标准行事,员工自主管理;所有资源得到充分调动和发挥,资源高效配置。一切有序运行。
从“教会徒弟,饿死师傅”到“制度激励,师徒共赢”。
今年的AutomechanikaShanghai上海国际汽车零配件、维修检测诊断设备及服务用品展览会将以更大的展出规模、更全面优质的展品以及更精彩丰富的现场同期活动完美展现在海内外
骏马能历险,犁田不如牛。面对庞大的农村家电市场,苏宁、国美这类一二级市场上的骄子不得其门而入,而汇银电器却在精耕细作中收获颇丰。
随着我国经济社会结构的日益多元化,农村基层党组织内部成员之间的各类自然和社会差异不断增加,从而使得农村党员实行分类教育管理成为必然。杭州市余杭区通过细化党组织设置
如何在确保组织灵活性的同时,提升组织的可控性——这是组织运行成长过程中一个至关重要的问题。
2006年一部《疯狂的石头》让大家都“疯狂”了一回.从“疯狂的赛车”、“疯狂农场”、“疯狂英语”,到“疯狂的楼市”、“疯狂的股市”.“疯狂”之风席卷了我们生活的各个领域。
随着大数据技术的不断应用和进步,我国越来越多的企业将大数据技术应用至管理系统中,大数据技术不仅提高了企业的管理效率,同时也有助企业强化审计结果。结合大数据技术的应
从"放管服"视角对高校科研经费管理的预算编制执行、科研设备采购、科研经费支出、绩效评价等控制活动进行了详细阐述。通过"放"给予科研人员更大的自主权,通过"管"防止科研