生物医学文本中的疾病实体识别和标准化研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:ycboyyb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
疾病一直是威胁人类健康的一大因素。因此,如果人们能够对疾病具有更多的了解,就能够提前做好预防措施。然而与疾病相关的文献呈指数增长,且新的疾病层出不穷,想要手动获取感兴趣的疾病信息如大海捞针一样困难,因此自动疾病识别是该领域研究者面临的挑战。一种疾病可能有不同的表示方式,一种表示方式也可能代表不同的疾病,想要对一种疾病有更多的了解,便希望用该类疾病的一种描述方式就能查询出该类疾病的所有描述方式对应的信息。因此疾病标准化的任务对于涉及到疾病的很多研究工作是很重要的,包括病因(如基因-疾病关系)和临床方面(如诊断、预防和治疗)。目前,关于基因(蛋白质)实体识别的研究已经日趋成熟,但是疾病实体识别仍然是一个较新的研究方向。针对疾病实体识别的任务,本文给出了一种CRF结合词典的疾病命名实体识别方法。该方法首先使用PharmGKB的疾病资源构建疾病词典,然后使用CRF与词典相结合的方法对疾病实体进行识别,接着使用全称-缩写词对的上下文线索调整识别结果。该方法在NCBI测试集上得到了83.82%的F值。最后,我们将疾病实体识别的研究方法转化成疾病实体识别系统DNER,该系统以可视化的形式对识别出来的疾病实体进行高亮显示。在疾病实体识别的基础上,本文对疾病实体进行了标准化。本文给出一种基于语义资源的疾病标准化方法。传统的疾病标准化方法由于数据库中疾病标识符的信息不够完整,不能很好的确定疾病实体在当前上下文中的具体含义。本文利用MEDIC疾病词汇表中疾病定义信息以及MEDLINE的摘要信息为数据库中的疾病标识符扩展了语义信息,通过计算模糊疾病实体的上下文信息与候选实体描述信息的相似度,从而找到与该歧义疾病实体相关的疾病标识。该方法在NCBI测试集上得到了79.49%的宏平均结果和79.70%的微平均结果。
其他文献
阿拉斯加是美国最大的州,拥有全美最长的海岸线,更是世界上最大的飞地.这里有壮美的山河,丰富的自然资源,如石油、金、铜、铂、银等,特别是北极地区滨海凹陷地带,已探明石油
期刊
结合工作实践,针对高层建筑特点,分析了高层建筑发生火灾的因素,介绍了高层建筑的火灾特性及危害,提出了高层民用建筑火灾防控对策,并从设计、水源、防火分隔、管理等方面进行了具
为增强患者就医的针对性,根据门诊患者具有诊治时间短。流动量大。病种复杂,对医院环境和就医程序比较陌生的特点。在门诊部设置预检台。实施护士导医服务,符合现代护理学概念和
2010年12月3日.浙江省丽水市莲都区法院对全国首例QQ相约自杀案作出判决,不仅判决自杀约定者张某承担20%责任.而且判决腾讯公司承担10%的责任。
本文阐述了高校图书馆读者满意度的定义、特点,分析了影响高校图书馆读者满意度的因素,在此基础上提出了提高高校图书馆读者满意度的对策。
以止观并重、定慧双修为重要特点的天台宗是在陈、隋之际由智顗在南北朝佛教学派纷争的基础上创立起来的.
中医学把河洛数理作为医学的基本原理,以河洛为理论基础的古中医学称为河洛中医学,其微蕴是固根本、守静笃、治未病。河洛中医学的治癌思路首先为疗心,其次为顾护脾肾,理气化
财富分配的不平等是人类社会的基本特征之一。作为一种现象,备受世人关注。本文围绕改革开放以来中国大陆财富分配问题展开讨论。在此,我们不但关注经济学意义上的不平等,同时也
长期以来,我国高校体育教学以运动技能为主,片面追求运动形艺,丢掉了增强体质,增进健康的根本任务。随着高校体育教学改革的不断深化,人们逐渐认识到,体育的终极目标是促进人们工作
运用MERAC多关节等动力量测试系统对我省优秀游泳运动员分别以三种测试速度作了膝关节伸展和肩关节内收的测试,并对测试结果作了评定及对各种测试数据与运动员100米最好游泳成绩作了等