精准医学知识库构建中的生物医学命名实体识别研究

来源 :军事科学院 | 被引量 : 3次 | 上传用户:qq6563187
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
精准医学是通过整合分析患者生物医学数据,构建发现个体患病机制的知识图谱,制定个性化诊疗方案的前沿医学理念。以基因-变异-疾病关系为核心内容的生物医学知识库,对精准医学的科学研究和临床实践都具有不可替代的重要作用。面对海量且飞速增长的生物医学文献,通过人工抽取知识将耗费大量的时间与人力,因此利用机器学习技术自动挖掘生物医学文本逐渐成为精准医学知识库构建中的关键环节。生物医学命名实体识别,即用计算机自动识别出文本中表示指定生物医学实体类型的名称,是生物文献知识挖掘过程中基础而关键的一步。本文以精准医学知识库构建为背景,对生物医学文献中的基因、基因变异、疾病三种命名实体识别的方法和技术开展了系统研究,提出了结合深度神经网络和传统方法,用于识别基因变异实体的新算法模型,开发了识别和标注三种实体的软件系统。主要研究结果如下:1.对生物医学命名实体识别算法的研究现状进行了调查,并对算法中采用的各种方法模型展开了研究。调研发现当前主流的疾病与基因变异识别模型大多基于统计机器学习算法,需要繁复的人工特征工程,且依赖设计人员的专业知识背景和自然语言处理经验。同时,基因命名实体识别算法较为成熟,已经存在多种成熟的识别工具,而能够识别基因、基因变异、疾病三种实体的系统鲜见发表,简便的高性能算法和多实体识别系统有待开发。2.提出和实现了一种创新的结合深度神经网络和规则方法的基因变异识别算法。利用作者提出的深度分词策略,将单词根据大小写、数字和特殊符号切分,然后训练可以捕捉变异实体内部结构信息的表征向量。随后将表征向量输入双向长短期记忆网络(Bi-LSTM),得到每个词的单向量表示,再将词的向量序列输入下一级Bi-LSTM网络并连接两个全联接层,输出每个词的标签概率。为进一步提高识别性能,采用Viterbi算法优化神经网络输出,再和正则表达式匹配输出结合得到最终标注结果。该算法在tmVar mutation corpus语料上取得91.59%的F-值,高于其他所知的已报道系统。3.为实现对生物医学文本中的基因、基因变异和疾病三种实体的快速识别定位,组合了已有的基因识别算法和课题组自主开发的疾病识别算法和基因变异识别算法,通过并行的对文本进行标注处理、再采用最长序列覆盖方法综合不同标注算法输出的方式,构建了自动标注文本中基因、基因变异和疾病实体的软件系统。该系统操作简单,可以快速准确的标注目标实体,为实现目标实体间的关系抽取打下了基础。
其他文献
目的 观察波形蛋白 (Vimentin ,Vim)在脑穿刺损伤后的动态变化 ,探讨Vim在脑胶质瘢痕形成中的作用。方法 应用大鼠脑顶叶刺伤模型。动物分为 4组 :对照组 ,脑穿刺损伤 3d及
<正>划定永久基本农田是党的十七届三中全会提出的坚持最严格的耕地保护制度,确保粮食安全的一项战略性措施,进一步表明了在我国实行最严格的耕地保护政策的决心,为耕地保护
小层对比是油田开发过程中的基础地质研究工作,其对比精度和准确性关系到是否能发现以前漏掉的一些储集层。提出了相控 等时小层对比方法:用三维地震相精细解释结果作为为测
黄骅坳陷奥陶系碳酸盐岩厚度大,从烃源岩的有机质类型、丰度、热演化特征等方面评价其基本生烃条件,认为有机质类型好,由于热演化程度较高,残余有机质平均丰度不很高。对系统
<正>实施行政处罚要与违法行为的事实、性质、情节以及社会危害程度相当,但施罚也应要按一定的方式、步骤、次序进行,否则,即便罚过相当,也因程序不足或违法而导致作出的行政
叙述防化服的发展历程和分类,活性炭和活性碳纤维作为吸附材料的防化服的更新和防护机理,以及国内外活性炭和活性碳纤维在防化服中应用的进展。
本文就培氟沙星的构效关系,抗菌机理,抗菌活性,药代动力学特征,耐药性等方面作了综述。重点讨论了培氟沙星在兽医临床中的应用,安全性评价和使用注意事项。
目的 调查惊恐障碍的医疗费用及选择性 5羟色胺再吸收抑制剂 (Selectiveserotoninreuptakeinhibitors ,SSRIs)对惊恐患者的疗效。方法 调查 70例患者的医疗费用、病程、所
四川盆地东北地区是中国目前发现的含H2S天然气储量最大的地区,下三叠统飞仙关组所产天然气中的H2S属于硫酸盐热化学还原反应(TSR)成因。对该区飞仙关组膏质岩类的分布、气源
目的 采用MTT法对人肺癌细胞药物敏感性进行研究。方法 对 2 6例外科手术标本进行原代细胞培养 ,用MTT法对培养成功者进行阿霉素 (ADM)、顺铂 (DDP)、长春新碱 (VCR)和足叶