一种基于医学文献挖掘的遗传风险信息抽取方法

来源 :东南大学 | 被引量 : 0次 | 上传用户:tytytytytytytytytyty
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物医学技术的发展,研究人员需要花费大量的时间挑选遗传风险相关文献并对其进行遗传风险信息的抽取,因此,自动化分类遗传风险文献并抽取遗传风险关系是生物医学领域的重要课题。遗传风险研究文献散落在海量生物医学文献中,且医学文献的专业度高,需要专业的研究人员才能分辨;同时遗传风险关系在医学文本中有论元分散、多位点共存的问题存在,给现有的遗传风险信息抽取带来很大的挑战。基于以上背景,本文研究了基于医学文献挖掘的遗传风险信息抽取方法。主要研究内容如下:(1)提出了基于知识的多通道CNN(Knowledge-enhanced Multi-channel CNN,KMCNN)方法用于遗传风险文本的分类。KMCNN方法将遗传风险论文中的生物医学实体通过UMLS(Unified Medical Language System)映射到一个医学向量,再根据不同的预训练词向量为同一个文本生成多个输入文本通道,通过LSTM(long short-term memory)捕获单词的拼写、前后缀信息,最终通过一个CNN模型对文本进行分类。通过消融实验、参数敏感性实验和对比实验,本文验证了KMCNN方法对于遗传风险文献分类的有效性。(2)针对遗传风险文献中的不同类型实体,提出了基于规则和自注意力机制的命名实体识别(Self-attention based Named Entity Recognition,S-NER)方案。基于规则的方法针对位点实体和P值实体,提出了多种不同的规则匹配方案。针对疾病实体的识别,本文提出了一种基于自注意力机制的Bi-LSTM-CRF模型进行识别,在模型中,使用CNN来提取字符级别的单词特征,使用单词的位置信息来加强标注约束,通过自注意力层来捕获更丰富的语义信息,最后通过经典的Bi-LSTM-CRF模型得到最终的标注结果。通过消融实验和对比实验,本文验证了提出的方案能够在公开数据集上获得良好的表现。(3)提出了基于自训练的半监督关系抽取方案(Self-Training Semi-supervised Relation Extraction,ST-SRE)对遗传风险关系进行抽取。针对已经识别出的遗传风险实体对,需要判断它们之间的关系,因此将关系抽取任务转化为关系分类任务。通过少量的数据样本标注和一个自训练模型,能够从远监督数据生成高质量的标注数据,最终训练一个关系分类模型。消融实验和对比实验验证了提出的关系抽取方案的有效性。(4)设计并实现了遗传风险信息抽取工具,该系统集成了遗传风险文本分类方法、遗传风险命名实体识别方案和遗传风险关系抽取方法。用户可以从网页上传待抽取的文献,系统首先判别该文献是否是遗传风险相关文献,随后对遗传风险相关论文进行遗传风险信息的抽取并在网页进行展示,最后用户可以下载json格式的遗传风险信息。
其他文献
学位
学位
猪流行性腹泻病毒(Porcine epidemic diarrhea virus,PEDV)、猪传染性胃肠炎病毒(Transmissible gastroenteritis of swine virus,TGEV)及猪轮状病毒(Porcine rotavirus,Po RV)是引起仔猪腹泻的主要病毒。以PEDV的M基因,TGEV的N基因,Po RV的VP7基因为靶基因,设计特异性引物及不同荧光基团
冰川被称为气候变化的指示器,在全球气候变暖的大背景下,山地冰川发生着巨大的变化。冰川表面温度强烈影响冰川消融,对冰川表面的热物理过程非常敏感。冰川表面温度被广泛用于冰川物质平衡模型、冰川动力学模型和表碛覆盖模拟,表征着气候条件和冰川表面属性的长期动态变化。时至今日,大量基于特定传感器的反演算法可用于表面温度研究,主要包括单通道算法、劈窗算法和多通道算法三大类。目前,针对普通地表温度、海洋表面温度和
事件抽取旨在将文本中的事件信息抽取为结构化的数据形式,对于信息检索、事理图谱的构造有重要作用。现有的事件抽取方法大致可以分为管道方法和联合方法。管道方法存在错误累积的问题,近期的大部分工作都采用联合方法进行事件抽取。然而大多数句子级的事件抽取联合方法缺少文本的整体信息以致无法很好地处理触发词的二义性问题,而文档级的抽取方法存在建模复杂的问题;另外,由于事件触发词和事件元素在句子中的关系紧密,事件抽
尼帕病毒(Nipah virus,Ni V)是副黏病毒科亨尼帕病毒属的单股负链RNA病毒,感染人的致死率高达40%-75%,属于生物安全四级病原体,但目前仍无上市的预防性疫苗和治疗性抗体。在研疫苗多为成本较高的活载体疫苗或哺乳动物细胞表达的真核亚单位疫苗。鉴于Ni V频发的地区主要在经济欠发达国家,低成本和低价格成为Ni V疫苗研发的一个重要方面。研发高效治疗性抗体也是快速、有效控制潜在Ni V爆
2010-2020近十年时间里,移动端界面设计流行着一种技术复古的趋势。19世纪八九十年代至20世纪末由于技术局限产生的阶段性视觉特征,在近十年以移动端为媒介,呈现阶段性规律重新回溯到大众视野中并流行成为设计风格。其中几种风格至今仍是移动端设计应用的热点,但目前针对具备技术复古特点的这一类风格的研究相对分散。风格的符号特征、发展脉络、演进趋势,尤其是这一类风格间的协同演进及背后的社会审美喜好的观念
基于传统村落活态性内涵,从村落人口、物质遗产以及非物质遗产3个方面构建传统村落活态性评价指标体系。通过访谈问卷、实地踏勘、文献查阅等方法获取数据,根据发展路径的差异划分传统村落类型,对分属旅游发展型、传统技艺型、综合开发型和生活服务型的湖南省永州市4个传统村落活态性进行测度。结果表明:(1)失活现象在各类型传统村落中较为普遍;(2)不同类型传统村落人口活态情况差异明显,其中旅游发展型村落人口活态性
灌注CT是一种功能性成像,现在被普遍用于中风症状的诊断。由于CT较少的断层成像图和影像组到介入组较长的运输时间,为了保证病人的最佳治疗时间,将灌注功能从传统CT迁移到C型臂CBCT有极高的应用价值。但是迁移后的灌注功能面临两个新问题,一是时间采样问题,二是时间分辨率问题,两者皆是C型臂较慢的扫描速度导致的,会导致成像结果的偏差以及灌注参数的计算误差。此外,由于动态扫描剂量较大,而直接使用低剂量成像
长江流域在我国经济社会可持续发展中占有重要战略地位,其中上游地区是长江径流的主要来源区,也是我国重要的水电开发基地,对于全流域的水资源合理配置和综合开发应用具有重要意义。近年来,在气候变化背景下,长江上游地区的气温、降水发生了显著变化;同时,“长治”、“天保”等生态工程的实施,改变了流域下垫面环境;上游地区水电开发强度的加大,也影响流域天然水文循环过程,这些都使得区域径流、输沙过程发生变化。因此,