【摘 要】
:
随着高通量测序对微观世界的解读,病毒和宿主关系预测问题受到越来越多的关注。现有的医学文献中存在大量经实验论证过的病毒与宿主关系,文本挖掘技术可以挖掘出这些隐含在文献中的关系。这一过程包括命名实体识别、实体对齐和关系抽取等步骤。构建病毒和宿主关系知识库,通过知识库的推理和预测能帮助学者验证潜在的病毒和宿主关系。而病毒命名实体识别是生物医学文本中病毒和宿主关系抽取的前提和关键。病毒名称具有多样性,新实
论文部分内容阅读
随着高通量测序对微观世界的解读,病毒和宿主关系预测问题受到越来越多的关注。现有的医学文献中存在大量经实验论证过的病毒与宿主关系,文本挖掘技术可以挖掘出这些隐含在文献中的关系。这一过程包括命名实体识别、实体对齐和关系抽取等步骤。构建病毒和宿主关系知识库,通过知识库的推理和预测能帮助学者验证潜在的病毒和宿主关系。而病毒命名实体识别是生物医学文本中病毒和宿主关系抽取的前提和关键。病毒名称具有多样性,新实体不断出现和实体嵌套等现象,使得病毒命名实体识别任务具有挑战性。本文的研究焦点病毒命名实体识别任务,提出基于语言模型的病毒命名实体识别方法和基于远程监督的病毒命名实体识别方法,主要研究工作有:首先,提出一种基于语言模型的病毒命名实体识别方法。同一词向量在不同的语义环境中能表达不同语义,而传统的ont-hot编码或通用领域表示词向量应用到微生物领域得到的模型结果欠佳。针对此问题,本文选取了几种主流语言模型:Word2Vec,ELMo,BERT,采用大量未标注的微生物语料训练得到上下文表示,然后采用BiLSTM进行特征抽取,CRF进行标签预测。比较不同语言模型表示上下文后模型的结果表现,实验结果表明,基于BERT语言模型在病毒命名实体识别任务中表现最佳。其次,提出一种基于远程监督的病毒命名实体识别方法。有监督学习需要大量人工标注语料,通过远程监督学习可以解决该问题。远程监督的方法根据第三方字典自动标注文本中目标实体,但易出现部分标注和数据噪声问题导致标注数据质量低,造成模型性能下降。基于上一研究成果,本文结合多层感知机和强化学习思想,提出BiLSTM-CRF和强化学习结合的方法进行病毒命名实体识别以用于解决上述的两个问题。实验表明,本文提出的方法有效地减少了远程监督方法带来的错误标注数据,对提高模型性能有良好的效果。最后,通过融合病毒知识库,本文使用性能最优的基于语言模型的病毒命名实体识别模型对大量的医学文献进行预测,发现了大量未在知识库出现但有意义的病毒实体,证明了病毒命名实体识别的研究意义,为病毒和宿主关系抽取提供了研究基础。
其他文献
社会工作者作为加强社会治理和创新社区服务的重要力量,以专业的价值理念和方法为指导,为服务对象提供契合其需求的专业服务,是践行社会治理理念、提高社区服务能力的中坚力量。当前,社会工作者主要通过以下两种途径参与到社区服务中:(1)通过政府购买社会工作岗位的模式,被社会工作机构派遣到社区中参与服务;(2)通过政府购买项目的方式,在社区中开展项目活动。但在政府鼓励多方主体参与的背景下,公益创投的发起让社会
自二十一世纪以来,科学技术已经进入了更高层次的发展,其中单层石墨烯的成功制备吸引了人们对二维材料领域的深入研究。然而,石墨烯没有明显的带隙,这使得其应用受到限制。于是人们试图探索不同类型的二维材料,并拓展它们的应用。许多二维材料,如硅、锡和二维过渡金属硫族化合物(Two-dimensional transition metal chalcogenides,TMDs)等已经在场效应晶体管(Field
先天性免疫是机体较早产生的一种防御机制,是机体识别和清除入侵病原体的一道重要防线,阐明非特异性基因参与的免疫反应和抗病毒机制在基础研究上能提供重要的理论基础,在应用研究上能够为抗病毒品种的选育提供重要的科研思路和证据。本研究以免疫调节过程的重要调节因子入手,以模式生物日本青鳉(Oryzias latipes)为研究对象,鉴定和分析了两个重要的免疫调节基因jun(Jun proto-oncogene
建筑能耗一直占全球能源消耗的比例较高,随着经济的快速发展,人们对建筑的舒适性也提出了更高的要求,这使得HVAC系统在建筑能耗中的影响愈加显著,所以相关研究人员思考该如何有效降低HVAC能耗。外窗是建筑维护结构中的重要部分,而且是围护结构中隔热能力比较薄弱的一环,为增强外窗的隔热能力,本文提出一种多层膜排风隔热窗,该窗户由膜,两层玻璃,玻璃与膜以及膜与膜所构成的空腔组成。该窗户利用中央空调系统在使用
视频是目前主流的媒体形式,其相比图片包含更多的信息。近年来,针对图像文字的检测与识别技术有了很大的进步,但针对视频文字的研究却很少。为了更好的分析视频序列,本文设计了一套基于在线优化检测的视频文字追踪系统,其可以灵活应用于各种类型的真实场景中,得到文字目标的运动轨迹。本文设计的系统简化了多目标追踪的流程,将文字检测和区域特征提取整合到统一的网络中,并从文字整体和语义两方面来提取区分度更强的特征向量
云存储是云计算的一种典型应用,目前市场上的云存储服务按照服务对象区分,分为公共云存储、内部云存储和混合云存储,其中个人云存储是公共云存储发展较为突出的代表。另一方面,在校大学生搜集信息和存储学习资料的需求旺盛,并且热衷于尝试新鲜事物,但是在经济上他们并未完全独立,于是价格低廉甚至免费的个人云存储成为在校大学生群体的首选。目前,有关云存储的研究较多集中在发展现状、云计算技术和影响因素总结上,而从用户
在激烈的市场竞争环境下,生产加工过程的优化,有助于企业以最低成本、最高效率、快速灵活地响应市场多样化和定制化需求,从而提高企业竞争力。在生产加工过程中,使用了大量的加工设备,其中数控装备最具代表性。在数控装备加工过程中,既要考虑为单台设备配置合理的加工参数,又要考虑车间多台设备的调度问题,故而,同时兼顾加工参数和车间作业调度两方面的优化,对于提升数控加工性能,具有不可忽视的作用。此外,在实际生产加
水稻是全球近半数人口的主食,稻米产量对我国乃至世界粮食安全至关重要。穗型是决定水稻产量最关键的因素之一,探究水稻穗发育的分子机理可以指导水稻穗型改良进而提高水稻产量。本室利用甲基磺酸乙酯(EMS)诱变的方法创建了水稻品种空育131(KY131)突变体库,筛选了包含A514和C769在内的一批具有明显稀穗表型的突变体,A514材料表现为二次枝梗及小穗减少,C769材料表现为各级枝梗和小穗均减少。本研
随着互联网新技术的不断革新,社交网络朝着更具有互动性和参与性的环境转变,而随着城市内中产阶级的崛起与旅游业的发达,以用户生成内容(User Generated Content,UGC)为主的社交型购物社区也在近几年异军突起,并取得了不错的成绩。用户不再只是传统的消费者,更加变成优质内容的产生者,甚至是社区内潮流的引领者;UGC购物社区依靠不同类别用户生成的内容吸引更多的用户参与社区,并为其他用户的
随着时代的发展,人们越来越重视安全管理,学校开展体育活动也存在各种各样潜在的风险,特别是小学低年级体育课堂安全管理,低年级体育课堂不同于其他课堂,安全第一是大家的共识,孩子是家人的希望,加之体育课堂的特殊性,上课场地是开放的,运动项目也是开放的,加之学生在课堂上好动活跃,很难管束,体育教师的工作压力越来越大,如不做好体育课堂安全管理,意外事故发生的机率就更大。良好的体育课堂安全管理,不仅可以提高体