生物医学文本中变异与疾病关系抽取研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:gaogaozai11111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
变异与部分复杂疾病紧密相关,是疾病和药物发现研究中的重要研究对象。如今,随着生物医学文献数量的快速增长,变异信息抽取技术也发展起来,它能自动抽取生物医学文献无结构化文本中与变异有关的信息,并将其转化为结构化数据,便于后续的管理与研究。本文的变异信息抽取研究包含变异命名实体识别和变异-疾病关系抽取研究。当前的变异命名实体识别方法中,主流方法是基于条件随机场,但存在需要大量特征工程来提升模型性能的缺点。针对此问题,我们提出一种基于字符卷积神经网络的变异实体识别方法,命名为CharCNN-CNN-CRF。该方法首先利用多窗口大小的卷积神经网络获取字符级别的词表示,然后使用多层卷积神经网络分级抽取文本特征,最后经过条件随机场获得与输入序列对应的标签序列。实验结果表明,CharCNN-CNN-CRF方法无需复杂的特征工程,仅使用字符特征就能快速、有效地识别生物医学文本中的变异命名实体。该方法在tmVar和MutationFinder两个数据集上均取得目前最好结果,F值分别为88.34%和93.57%。文档级变异-疾病二元关系抽取的目标是抽取文档中存在关系的变异实体和疾病实体。现有变异-疾病关系抽取研究选用基于决策树的分类方法,存在需要大量特征工程和文档级任务中跨句关系识别困难的问题。针对上述问题,我们提出基于序列标注的StarBiLSTM-LAN方法。该方法将Star Transformer和长短期记忆网络组合成编码器,可以从多方面捕获文档级别语义和句法特征的能力,从而同时实现句内和跨句关系抽取。此外,我们选用标签注意力网络作为解码器,能够建模标签序列,学习标签之间的转化规则。Star-BiLSTM-LAN方法在EMU BCa和PCa数据集上均取得目前最好结果,F值分别为89.20%和90.43%。根据以上研究,我们开发了Browser/Server模式和基于Flask架构的变异信息抽取系统。系统客户端是浏览器,与服务器通过Flask架构内部的套接字网络通信交换数据,系统服务器选用Star-BiLSTM-LAN模型抽取目标信息。系统允许用户在首页中输入生物医学文本然后提交给服务器,以抽取其中的变异实体及其相关的疾病实体,最终将抽取结果可视化在展示页面中。
其他文献
本课题在国内外首次提出了基于非晶丝的表面磁场层析成像方法,针对涡流激励等时变信号,本文研究了时变场层析成像方法,其研究成果可用到无损检测、自动识别和医疗检测等诸多
为实现全面深化改革,抑制司法地方化,2015年2月《最高人民法院关于巡回法庭审理案件若干问题的规定》的出台,开启了我国司法系统发展的新篇章。迄今为止,最高人民法院共设置
随着经济社会发展、居民收入不断增加和节假日制度不断完善,休闲已经成为了人们生活中不可或缺的组成部分。对于城市居民而言,城市公园是人们进行日常休闲活动的主要场所之一
帕金森病是一种神经退行性疾病,已被认为是第二大流行的神经退行性疾病。研究人员发现遗传因素在帕金森病中起着越来越重要的作用,现已发现与帕金森病明确有关的致病基因有7个,而LRRK2基因突变,最有可能在典型晚期发病的帕金森病中起作用。LRRK2(Leucine rich repeat kinase 2)是由PARK8基因编码的一种蛋白激酶,最常见的LRRK2突变是在G2019S(GS)位点上。研究人员
角锥棱镜可以补偿激光器增益介质的不均匀、其角向选模特性能抑制高阶模振荡改善光束质量、准相位共轭特性能补偿腔内相位畸变。角锥谐振腔的抗失谐特性使得角锥腔激光器能克
晚唐五代时期湘楚地区的社会环境相对比较稳定,其相对独特的地理环境及经济文化条件,成为湘楚文学发展的前提和条件。这时期湘楚诗人的大量出现,如诗人李群玉、胡曾、秦韬玉
随着手机智能化的发展,手机逐渐成为生活中必不可少的一部分,然而手机垃圾短信一直困扰着广大手机用户。本文着眼于手机垃圾短信的法律治理这一问题,立足于我国手机垃圾短信
随着我国总体经济的快速发展,我国对于在山地和丘陵地区的高等级公路建设和发展也越来越重视。但伴随而来的,公路工程建设和运营过程中的边(滑)坡灾害问题所造成的危害也与日
陕西是中华民族重要的发祥地,周秦汉唐等王朝都在陕西建都,在中国的历史上,有种“特别关系”。近代以来,西方资本主义国家自海上而来,东南沿江沿海各省始变为中国政治文化的
危险犯作为一种特殊的犯罪类型,是刑法基于社会之中的危险行为的复杂性所作出的法益前置保护规定,而危险犯的危险作为危险犯的核心要素,不仅是危险犯的立法依据,还揭示了危险