生物医学领域的命名实体识别和标准化

被引量 : 0次 | 上传用户:yangyujie309
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物医学领域的命名实体识别和标准化是当前自然语言处理研究领域广泛关注的问题,是生物医学文本挖掘的基础步骤。只有正确地识别出生物医学命名实体并进行标准化,才能有效地完成蛋白质-蛋白质交互关系抽取、文本分类、假设发现等更加复杂的工作。本文的研究工作主要集中于两方面:(1)针对JNLPBA2004任务,提出了基于组合分类器和多代理策略的两阶段生物医学命名实体识别方法。该方法将JNLPBA2004任务分为命名实体识别和命名实体分类两个子任务。命名实体识别子任务就是将命名实体和非命名实体区别开来,而不对命名实体进行分类。在第一阶段,针对命名实体识别子任务,使用基于不同训练方法的四个工具包(CRF++、YamCha、Maximum Entropy和Mallet)构建了六个单个分类器,然后使用两层-叠加方法将六个单个分类器的识别结果进行组合。命名实体分类子任务就是确定识别出的命名实体的类型。在第二阶段,针对实体分类子任务,使用多代理框架对已识别出的实体进行分类。实验结果表明,本文提出的方法在生物医学命名实体识别上取得了优越的性能,在JNLPBA2004的测试语料上取得了76.06%的F评测值。(2)针对BioCreative Ⅱ GN任务,提出了整合多种有效方法的多阶段基因标准化系统。该系统包含四个主要步骤:预处理、词典查询、歧义消解和过滤。预处理就是识别出文本中的生物医学命名实体,本文使用了前述工作中所使用的方法来进行基因名识别,该方法在BioCreative Ⅱ GM测试集上取得了88.42%的F评测值;词典查询,即将经过预处理识别得到的基因与BioCreative Ⅱ GN任务提供的词典进行匹配,确定该基因对应的标识符。在这一步中,精确四配和模糊匹配方法被结合来进行基因名和EntrezGene司典的对应。在歧义消解步骤中,采用基于匈牙利算法的语义相似度计算方法;在最后的过滤步骤中,构建基于维基百科的后过滤器进行过滤。实验结果显示,整合多种有效方法的多阶段基因标准化系统在BioCreative Ⅱ GN任务上获得了90.1%的F评测值,优于当前的大多数先进系统。本文所提出的生物医学命名实体识别和标准化方法具有较高的性能,也可以应用于生物医学文本挖掘的其它领域。
其他文献
校外生产性实训基地具备满足学生生产实训的功能,是学校与企业联合办学的桥梁。建立健全长效管理机制,改革拓展实践教学体系,完善实训教学体系评价,共同研发产品,可以助推校
目的:观察降脂颗粒对高脂血症患者的中医症状、血脂水平、动脉粥样硬化指数等指标的改善情况,经过统计分析,评价其调脂治疗的有效性和安全性,以探索一种安全、有效、便于应用
2.6抑制植株及果实病害植物受到病原物等各种异常因素刺激后,产生一系列防卫反应,如木质素的沉淀,富羟糖蛋白的积累,次级结构胼胝体、周皮等的产生,有关酶系统的激活,一些功能分子(如
长期以来,对于时间序列的预测研究多是以单变量模型为主。然而,现有研究表明,复杂的实际系统往往包含多元特性,将具有一定相关性的多个序列作为一个整体进行研究,更有助于解
本文以张艾嘉的成长历程为切入点,以她自我意识的萌芽、认同、成长、救赎与重生为线索,以期在更好地解读张艾嘉的同时,形成对当下媒介生产和女性明星文化的点滴思考。
研究目的观察调脂康口服液治疗高脂血症的疗效、安全性,以了解其在临床上价值,为中成药治疗高血脂症提供依据。研究方法1.一般方法从2012年3月-2013年2月在武汉市中医医院住院及
目的中风是一种常见的老年性疾病,具有高发病率、高致死率、高致残率的特点,肢体运动功能障碍是中风最常见的后遗症之一,极大的影响了患者的生活质量。如何有效的促进中风后肢体
排球是一项深受我国人民群众喜爱的体育运动,我国女排曾创下五连冠的辉煌佳绩,但近年来,我国排球运动的发展却落后于世界排球运动快速发展的步伐,不但与世界顶尖球队相比存在差距
菌糠是食用菌采摘之后将其培养料粉碎后得到的菌渣,其含有一定量的蛋白质、脂肪、食用菌丝以及多种糖类、有机酸和多种活性物质等。我国每年大约产生菌糠1600万吨,这些菌糠绝大
文化身份是表明某一群体文化属性的标志,身处中国传统文化与美国主流文化两种异质文化语境中的美国华裔文学,在建构自身的文化身份时一直存在颇多困惑与挣扎。本文以美国华裔文