基于机器学习的生物医学命名实体识别的研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:uspjxt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代的背景下,生物医学的研究正在快速发展,每年都有大量的文献在增加。海量的生物医学文献作为一个巨大的非结构化数据库,提供了丰富的生物医学研究知识,是最重要的生物医学领域资源。因此,如何从这些海量的文献中快速获取专业知识受到了越来越多的关注。生物医学文本挖掘技术在文本知识的自动获取中发挥着重要的作用,而命名实体识别作为该项技术的任务之一,旨在从生物医学文献中识别出指定类型的名称,如蛋白质、DNA、RNA、细胞等,为进一步地抽取关系和其他潜在信息提供了前提。本文的研究工作包含以下三个部分:(1)基于条件随机场的生物医学命名实体识别。使用生物医学语料库,根据生物实体的特性人工设计了15种特征;采用条件随机场算法训练模型,结合单独最优组合法挑选出最优的特征集,分析各个特征对实验结果的影响,经过测试评估,综合评价值F最高可达75.91%。(2)基于双向长短期记忆网络联合条件随机场的生物医学命名实体识别。传统的机器学习算法不仅需要人工选取特征,还需要一定的领域知识;同时模型的好坏取决于高质量的数据集和最优的特征集合,这需要付出众多的人力代价。为了解决传统方法存在的问题,本文提出了基于双向长短期记忆网络结合条件随机场的命名实体识别方法,经过训练、测试和评估,F值达到了76.81%。实验结果表明,此方法不仅不需要人工抽取特征,而且预测效果优于单向、双向的长短期记忆网络和传统的机器学习算法。(3)生物医学命名实体识别系统的设计与实现。采用双向长短期记忆网络联合条件随机场算法训练出的模型,以autism为关键词检索相关联的文献进行实体识别并对数据进行直观地展示,表明算法的有效性和实用性。本文提出的命名实体识别的方法,表现出了较好的识别效果,能够高效快速地从海量的生物医学文献中自动识别出实体名称,从而为实体关系抽取奠定了基础。
其他文献
【正】 长期以来,在理论界对阶级的消灭与国家的消亡的关系上,似乎只看了到它们之间的共同点或本质联系的一面,而忽视了它们的不同点或相区别的一面。我认为,阶级和国家固然
论述了向日葵菌核病的生物防治策略,探讨了包括菌核病的生防因子和防治机理。
随着医学图像的定量分析在疾病评估和治疗方案中的应用越来越受到重视,用于从CT图像数据中进行肺叶分割的精确计算方法成为医学图像处理领域的研究热点。目前大多数应用于临床的肺叶分割是采用自动预分割肺叶结合手动检查和交互的方式,即使可以通过手动校正分割肺叶,探索精准的肺叶分割方法以减小用户负担依然是本领域目前具有重大意义的研究内容。目前已有学者提出从CT图像数据中进行肺叶分割的计算方法,但并未在临床实践中
<正> 各种不同类型的休克,如常见的失血性休克、创伤性休克、脓毒性休克皆可导致不同程度的血容量减少,而出现低血容量性休克。但失血性休克,因其直接的原因是由于急性大出血
期刊
<正>一、提出问题反思就是学习者对自己的思维过程、思维结果进行再次认识的检验过程.在学习中,反思是发现的源泉,是训练思维、优化思维品质的极好方法,是促进知识同化和迁移
索绪尔的语言观在中国的传播与中国现代语言学的发展──“现代语言学在中国”座谈会纪要郭伯康MainArticlesThedisseminationofF.Saussure'sviewoflanguageinChinaandthedevelopmento... The Transmission of Saussure’s View of Language in China and the D
龙水,广西桂林全州县一个古老的乡镇,有弯曲深幽的老街,临街的门面窄窄,却有厚重的木头门,门上密密纵横的划痕诉说着岁月的沧桑。老街的路面是大片大片的青石板,被岁月的风雨
期刊
CO2是化石燃料使用过程中的最终产物,并会导致严重的温室效应。将CO2转化为一些有价值的化石燃料是迫切需要的,电化学方法是最有前景的方法之一。CO2电化学还原(CRR)主要受到低
本报讯 姚岚 为活跃河北省春供市场,展示该省农业引智和农业产业化科技成果,推广优良品种,经河北省外国专家局、河北省农业产业协会共同研究决定,12月27~29日,将在石家庄河北神农
报纸