中文电子病历文本中的时间信息抽取算法研究

来源 :华东理工大学 | 被引量 : 0次 | 上传用户:newbitcom
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子病历文本中的时间信息,对于标识患者从入院到出院期间不同阶段的病情变化,有着不可替代的作用,因而时间信息抽取在医学领域中受到越来越多的关注。时间实体抽取难点在于:电子病历中存在基于事件的时间,由于这类时间短语太长,很难将其准确识别出来从而导致边界错误。另外,在抽取时间关系的过程中,虽然事件之间存在时序关系,但当句内不存在时间词时,容易识别出错误的时间关系;同时,由于句间事件之间跨度远,若没有显式的时间词出现,很难确定句间事件-事件的时间关系。  在时间实体抽取方面,本文将中文电子病历文本中的时间分为独立时间和基于事件的时间,并针对这两类时间分别提出了基于bootstrapping的识别算法和基于条件随机场的识别算法。其中,为了解决基于事件的时间短语太长而不能准确定位其边界的问题,引入知识库作为词典特征,有效提高了利用条件随机场进行识别的准确率、召回率和F1值。  在关系抽取方面,本文把中文电子病历文本中的时间关系识别转化成实体对分类问题:针对句内事件-事件和句内事件-时间这两类时间关系的识别,分别制定了高准确率的启发式规则,并设计了多种语言特征训练不同的分类器;针对句间事件-事件的时间关系的识别,设计了基本特征、短语句法特征和其他特征,训练分类器缓解句间时间关系的识别错误。
其他文献
随着软件技术和网络技术的发展,基于构件的软件开发正成为当前分布式软件系统开发的主流.相应地,为服务器端构件提供运行时环境的应用服务器的地位和重要性也已经被迅速认可,
热点检测作为一种研究技术,被广泛地应用于环境犯罪学,生物学,传染病学,地理学和舆情学等领域。给定一系列基于空间位置的活动点,传统的热点检测方法能够检测出活动点密度较高的区
本论文针对企业复杂信息系统的集成支持环境及问题进行了分析和研究。本论文在深入讨论和分析了当前比较流行的企业信息系统集成支持技术Web Services和CORBA的基础上,提出了
数据挖掘(Data Mining,DM)和数据库中知识发现(Knowledge Discoveryin Database,KDD)是当今人工智能和数据库等研究领域中活跃的具有广阔应用前景的研究方向.它涉及到人工智
随着Internet的发展,XML越来越被广泛的应用,不仅被用作数据交换的标准,而且用来表示大多数的数据,广泛应用于分布式系统中.在使用XML文档时候,大多都是采用XML DOM的形式,使
目前,移动数据库技术的研究与应用是数据库领域和移动计算领域的一个研究热点,伴随着集成电路技术、移动通信技术等领域的发展,移动数据库产品具有巨大的用户需求。 移动数据
数据挖掘技术是当前计算机技术的研究热点之一,关联规则的研究是近几年研究较多的数据挖掘方法,在数据挖掘的各种方法中应用也最为广泛.较低支持度的项集在传统的关联规则挖
联机分析处理(OLAP)是当前数据仓库应用和决策支持系统(DSS)的研究热点.OLAP查询通常需在海量数据上进行即席(ad hoc)的复杂聚集查询,并要求及时向用户提供分析数据,用以辅助
分子对接旨在预测研发许多疾病药物的先导化合物,这在生物信息学的药物设计过程中有着举足轻重的作用。然而,其需要巨大的计算成本。为此,缩短分子对接时间消耗将有效的加速药物
随着网络技术与应用的不断发展,计算机网络在我们的日常生活中已经变得越来越普遍。这些网络的发展使得大到国家经济命脉小到个人日常生活严重依赖于计算机网络,因此网络运行的