论文部分内容阅读
变异与部分复杂疾病紧密相关,是疾病和药物发现研究中的重要研究对象。如今,随着生物医学文献数量的快速增长,变异信息抽取技术也发展起来,它能自动抽取生物医学文献无结构化文本中与变异有关的信息,并将其转化为结构化数据,便于后续的管理与研究。本文的变异信息抽取研究包含变异命名实体识别和变异-疾病关系抽取研究。当前的变异命名实体识别方法中,主流方法是基于条件随机场,但存在需要大量特征工程来提升模型性能的缺点。针对此问题,我们提出一种基于字符卷积神经网络的变异实体识别方法,命名为CharCNN-CNN-CRF。该方法首先利用多窗口大小的卷积神经网络获取字符级别的词表示,然后使用多层卷积神经网络分级抽取文本特征,最后经过条件随机场获得与输入序列对应的标签序列。实验结果表明,CharCNN-CNN-CRF方法无需复杂的特征工程,仅使用字符特征就能快速、有效地识别生物医学文本中的变异命名实体。该方法在tmVar和MutationFinder两个数据集上均取得目前最好结果,F值分别为88.34%和93.57%。文档级变异-疾病二元关系抽取的目标是抽取文档中存在关系的变异实体和疾病实体。现有变异-疾病关系抽取研究选用基于决策树的分类方法,存在需要大量特征工程和文档级任务中跨句关系识别困难的问题。针对上述问题,我们提出基于序列标注的StarBiLSTM-LAN方法。该方法将Star Transformer和长短期记忆网络组合成编码器,可以从多方面捕获文档级别语义和句法特征的能力,从而同时实现句内和跨句关系抽取。此外,我们选用标签注意力网络作为解码器,能够建模标签序列,学习标签之间的转化规则。Star-BiLSTM-LAN方法在EMU BCa和PCa数据集上均取得目前最好结果,F值分别为89.20%和90.43%。根据以上研究,我们开发了Browser/Server模式和基于Flask架构的变异信息抽取系统。系统客户端是浏览器,与服务器通过Flask架构内部的套接字网络通信交换数据,系统服务器选用Star-BiLSTM-LAN模型抽取目标信息。系统允许用户在首页中输入生物医学文本然后提交给服务器,以抽取其中的变异实体及其相关的疾病实体,最终将抽取结果可视化在展示页面中。