中文电子病历信息抽取关键技术研究

来源 :北京工业大学 | 被引量 : 6次 | 上传用户:zj8972108
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数字化医疗和医疗信息化已经成为当前医学领域中的重要研究内容,由此出现的电子病历的研究在近些年得到了普遍的应用和迅速的发展。结构化电子病历应用之前,医院保存了大量的非结构化电子病历数据,这些数据对于科研和临床都有着重要的意义,然而并不便于有效的信息检索,大量医学信息不能被有效的利用,造成了资源的严重浪费。因此,电子病历的信息挖掘研究至关重要,是现代化医疗中的一项重要任务,也是重要的挑战之一。电子病历信息抽取为非结构化电子病历数据的信息挖掘和分析提供了技术支撑。由于我国研究起步较晚,病历中自然语言表达较灵活,以及包含众多的专业术语等特点,进行电子病历的信息抽取研究有一定的难度。信息抽取中基础且重要的过程是命名实体识别,是本文研究的重要内容。基于命名实体识别,对病历中的实体关系抽取技术进行了研究。最后对本文研究内容进行了总结和展望。本文主要研究内容如下:(1)针对电子病历非结构化文本的特点,提出一种多特征融合条件随机场的命名实体识别方法。选取某三甲医院的600份病历作为实验数据,随机选取400份病历作为训练集,剩余200份病历作为测试集。将条件随机场模型特征分为基本特征和高级特征,通过选取不同的特征与特征模板,确定实验参数以及最佳特征组合,最终对电子病历的疾病、症状、手术等实体的识别取得了很好的效果。(2)考虑到目前并没有大型的、公开的、全面的中文电子病历语料库,提出一种半监督的命名实体识别方法,采用Bootstrapping算法,并结合最大熵模型的优点对其进行改进。该方法实现了仅使用少量种子词,通过不断地循环学习,对最大熵模型进行优化,识别电子病历中的命名实体。通过几组对比实验,确定了实验的最优参数,并且通过与命名实体识别的其他几种模型对比结果中,发现此方法有效提高了电子病历命名实体识别的效果。(3)在电子病历命名实体识别的基础上,对疾病、症状、手术之间的关系进行抽取。考虑到中文电子病历文本中的语句结构与描述方式具有相似性,提出基于卷积树核的病历实体关系抽取方法。对病历文本进行预处理,将其转换为句法树的形式并标注,采用“一对一”的方法构建SVM多类分类器,在此基础上分别采用基于子树核和子集树核的方法进行实验。对比实验结果发现基于子集树核的方法对病历实体关系抽取的性能优于子树核。对中文电子病历信息抽取关键技术的研究,为医学信息的挖掘、统计和分析做好了准备工作,同时也为非结构化电子病历向结构化电子病历的转换提供了有效的方法和思路。
其他文献
进行政治体制改革,首要问题就是如何评价一个国家的政治体制。邓小平提出的评价政治体制的三条标准,从政治学研究的角度看,就是政治体制的合法性与有效性问题。只有在民主规
结合兰新铁路第二双线某连续梁,阐述了铁路连续梁满堂支架法施工的搭设方案,通过建立有限元模型分析了支架变形,与实测值进行比较分析,提出了衡量支架变形可靠性的方法和参考
近年来,多糖作为一种活性物质市场需求量日益增大,细菌胞外多糖是细菌液体发酵代谢产生的,利用细菌代谢产糖具有周期短、产量高、质量稳定的优点,是工业生产多糖的一种高效、节能
本文从新闻记者主体意识的三侧构成 (新闻意识、理性解析意识、审美意识 )探索各自之于新闻作品的价值。通过探析 ,本文认为 :记者的新闻意识有益于新闻内容的新闻性显现于新
互联网作为继报纸、广播、电视之后的“第四媒体”,对网络上语言传播形式的影响和改变是显而易见的,由此也诞生了一种新的语言形式,即网络语言。网络语言并不是一种独立的语言,它
传播学作为跨学科研究的产物,20世纪30年代以来,它和其他社会科学学科有很密切的联系,处在多种学科的边缘。20世纪40年代奠定了传播学在众多人文社会科学学科中的基础地位是美国
目的了解男护生对职业角色认同的状况,为男护生的培养教育提供借鉴。方法通过访谈的形式,访问了20位在校学习和5位临床实习的男护生,对获得的资料进行分析和整理,提出主题。
从当今经济全球化格局、信息技术革命和产业发展的角度看,企业的竞争正在加速由生产阶段前移到研究开发阶段,或者后移到品牌营销阶段,而具有竞争优势的高技术产品和新概念服
[目的/意义]随着信息技术和网络技术的飞速发展,开源情报的重要性与日俱增。当今国家之间的竞争更多的是科技力量的竞争,掌握科技前沿技术是取得科技竞争胜利的关键,是情报工
有机质与总有机碳(TOC)的换算关系为wo=1.724×wTOC,难以满足当前页岩气开发的现场测定要求,需要作出修正。本文以鄂尔多斯盆地南部页岩样品为研究对象,在传统灼烧法基础上