论文部分内容阅读
精准医学是通过整合分析患者生物医学数据,构建发现个体患病机制的知识图谱,制定个性化诊疗方案的前沿医学理念。以基因-变异-疾病关系为核心内容的生物医学知识库,对精准医学的科学研究和临床实践都具有不可替代的重要作用。面对海量且飞速增长的生物医学文献,通过人工抽取知识将耗费大量的时间与人力,因此利用机器学习技术自动挖掘生物医学文本逐渐成为精准医学知识库构建中的关键环节。生物医学命名实体识别,即用计算机自动识别出文本中表示指定生物医学实体类型的名称,是生物文献知识挖掘过程中基础而关键的一步。本文以精准医学知识库构建为背景,对生物医学文献中的基因、基因变异、疾病三种命名实体识别的方法和技术开展了系统研究,提出了结合深度神经网络和传统方法,用于识别基因变异实体的新算法模型,开发了识别和标注三种实体的软件系统。主要研究结果如下:1.对生物医学命名实体识别算法的研究现状进行了调查,并对算法中采用的各种方法模型展开了研究。调研发现当前主流的疾病与基因变异识别模型大多基于统计机器学习算法,需要繁复的人工特征工程,且依赖设计人员的专业知识背景和自然语言处理经验。同时,基因命名实体识别算法较为成熟,已经存在多种成熟的识别工具,而能够识别基因、基因变异、疾病三种实体的系统鲜见发表,简便的高性能算法和多实体识别系统有待开发。2.提出和实现了一种创新的结合深度神经网络和规则方法的基因变异识别算法。利用作者提出的深度分词策略,将单词根据大小写、数字和特殊符号切分,然后训练可以捕捉变异实体内部结构信息的表征向量。随后将表征向量输入双向长短期记忆网络(Bi-LSTM),得到每个词的单向量表示,再将词的向量序列输入下一级Bi-LSTM网络并连接两个全联接层,输出每个词的标签概率。为进一步提高识别性能,采用Viterbi算法优化神经网络输出,再和正则表达式匹配输出结合得到最终标注结果。该算法在tmVar mutation corpus语料上取得91.59%的F-值,高于其他所知的已报道系统。3.为实现对生物医学文本中的基因、基因变异和疾病三种实体的快速识别定位,组合了已有的基因识别算法和课题组自主开发的疾病识别算法和基因变异识别算法,通过并行的对文本进行标注处理、再采用最长序列覆盖方法综合不同标注算法输出的方式,构建了自动标注文本中基因、基因变异和疾病实体的软件系统。该系统操作简单,可以快速准确的标注目标实体,为实现目标实体间的关系抽取打下了基础。