基于文本挖掘的生物命名实体识别算法研究

来源 :西北农林科技大学 | 被引量 : 0次 | 上传用户:aibertini
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,研究者为了从海量生物医学文献中快速有效地获取所需要的生物医学知识,使用文本挖掘技术已成为生物医学和生物信息学领域的研究热点。由于生物命名实体是生物医学文本的基本元素,所以生物医学命名实体识别是对生物医学文本进行信息抽取、信息检索、机器翻译以及自然语言处理等工作的前提。据此,使用文本挖掘的方法对生物医学文本中的命名实体进行有效的识别,对更好地进行下一步工作具有重要的意义。特别是蛋白质的角色和功能是生命科学的重要研究项目,因此对生物医学蛋白质命名实体进行识别对生物医学研究具有重要的作用。但是现有研究所使用的文本挖掘方法通常是有监督学习方法,该类研究方法往往需要大量目标领域的标注数据进行模型训练,进而保证模型的分类预测性能。而在生物医学领域中,人工标注数据需要耗费昂贵的人力物力成本以及时间代价,为了降低分类模型对目标领域标注数据的需求量,进而减少人力物力和时间开销,节约资源,本文主要从以下两个方面进行研究:(1)基于迁移学习的生物医学蛋白质命名实体识别为了降低生物医学文本中命名实体识别对目标领域标注数据的需求,本研究将生物医学文本中的蛋白质命名实体识别问题化为基于迁移学习的隐马尔科夫模型问题,提出BioTrHMM算法。对要进行蛋白质命名实体识别的目标领域数据集无需进行大量数据标注,通过迁移学习的方法实现对目标领域的识别分类。以相关领域数据为辅助数据集,利用数据引力的方法评估辅助数据集的样本在目标领域学习中的贡献程度,在辅助数据集和目标领域数据集上计算权值进行迁移学习。基于权值学习模型,构建基于迁移学习的隐马尔科夫模型算法BioTrHMM。在GENIA语料库数据集上的实验表明,BioTrHMM算法比传统的隐马尔科夫模型算法具有更好的性能;仅需要少量的目标领域标注数据,即可具有较好的命名实体识别性能,大大减少了人工标注数据所需要花费的开销。(2)基于PU学习的生物医学蛋白质命名实体识别在实际研究当中,往往存在标注数据较少或者没有的情况,由于标注数据较少,使用传统的有监督学习方法无法构建有效的分类模型进行生物医学蛋白质命名实体识别。针对这种情况下的生物医学命名实体识别问题,本研究将该问题转化为PU情况下的生物医学蛋白质命名实体识别问题。通过使用PU学习中的两步法方法,在第一步中分别使用1-DNF、Spy、NB和Rocchio方法在未标注数据中抽取强负例,然后在已有的正例数据和强负例数据的基础上构建隐马尔可夫模型,最后对待分类数据进行命名实体识别。实验结果显示,在标注数据较少的的情况下,通过使用PU学习方法的两步法构建分类模型,模型的性能显著优于直接使用标注数据构建的分类模型的性能。在标注数据较少的情况下,本研究通过PU学习方法构建的分类模型不仅显示了良好的分类性能,同时没有额外的人工标注数据的开销。
其他文献
深海机械手是海洋探测的必要装备,现有液压驱动工业级深海机械手体积庞大且手部为钳指型结构不够灵活,难以在小型潜航器上应用、难以捕获活动的海洋生物;灵活的小型水下机械手多选用电磁式无刷电机作为作动器,采用充油方法平衡海水压力。但随着水深增加水压增大,密封元件的变形不仅导致电机输出能力的下降而且还伴有海水渗入或油液泄漏的可能。本课题面向微小型潜航器配备水下灵巧机械手的应用需求,利用压电激励和摩擦驱动原理
随着网络技术的快速发展和电子文件数量的急剧增加,文本分类技术愈发重要。文本分类中最棘手的问题就是如何有效降低特征空间的高维度,过高维度的特征空间不仅会增加分类时间
近几年,在技术、市场与国家政策的共同推动下,我国“互联网+教育”的发展进入了快车道,这让教育的内容与形式都更加的多元化,教育资源的分配也愈加的公平合理,与此同时在线教育企业也面临着越来越大的竞争。在线教育企业要想不断的扩大企业影响力,增加经济效益,除了要加强在线教育系统研发技术的提升、课程质量以及服务水平的提高以外,绩效管理的方式,绩效考核的科学性、完善性、灵敏性等,都在一定程度上左右着企业战略目
学位
自动回复是指对于用户提出的问题系统能够自动的为用户提供一个答案,在自动回复任务中,大多数问题和答案之间词汇的重合率和相似度并不高,很难仅使用单词匹配和特征提取的方
飞行模拟器是民用航空与军用航空中飞行员训练不可或缺的关键训练设备。借助头盔显示器开发的基于虚拟现实技术的轻量级模拟器舱内外视景均由计算机生成,通过改变视景可实现不同机型重配置,使用灵活,沉浸感好,因而受到广泛关注。但是由于佩戴了头盔显示器,飞行员在模拟训练过程中无法直接看到自身的手,因此交互性受到严重影响。为实现自然、和谐的人机交互,本文主要开展基于计算机视觉的手部交互技术研究。鉴于表观方法在计算
提高生产效率、降低生产成本是企业在现代化发展中需持续关注的焦点话题。企业若想在市场竞争趋于白热化的环境中脱颖而出,那么对其生产调度进行持续性优化是非常有必要的举
The key to achieve autonomous control of robot,and also an important topic in mobile robotics field is Simultaneous localization and mapping(SLAM).A mobile robo
燃烧室中的燃烧现象复杂,温度很高,多种物理过程强烈耦合,其中传热方面多种传热方式共同作用于燃烧过程。通过实验研究燃烧室内的燃烧情况难度较大,实验数据难以获取且数据有限。目前高精度数值方法发展迅速,对燃烧室的燃烧仿真研究受到广泛关注。然而,目前的燃烧仿真大多仅考虑燃烧现象而忽略了多种传热方式对燃烧过程的影响,通过文献调研发现,燃烧室中的传热现象对燃烧仿真结果的准确性有较大影响。因此本文基于新型的高精
随着互联网的兴起,网络中的数据量呈指数增长,人们的生活节奏加快,如何从海量数据中高效获取所需信息已经成为了现如今亟待解决的问题。自动摘要技术能够对文本信息进行融合
伴随着大数据时代的不断加深,数据量呈指数趋势不断增长,同时数据维度也相应地持续增加,因此,快速实时数据分析等需求面临着新的挑战。提升数据存储服务的实时性、准确性以及