蛋白质相互作用有向关系抽取的研究与实现

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:xieqinghang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生命科学的迅猛发展导致了生物医学文献的指数级增长,随着信息抽取技术日益成熟,对生物医学文献信息抽取技术的研究越来越具有现实意义,而生物实体关系抽取正是其中最重要的一环。生物实体关系抽取技术不仅本身具有重要的应用价值,而且是生物实体关系数据库自动更新的有效手段,是构建生物实体知识网络的必要前提,同时对生物实体关系预测和新药研制也具有不可替代的作用。生物实体关系抽取已经成为当前的一个研究热点,但是关系抽取的效果还有待改善,并且对于关系的方向、类型等重要的信息还缺少关注。本文主要沿着两条思路开展研究:蛋白质相互作用关系抽取效果的改进和相互作用关系信息的丰富。针对生物文献的特点,我们开发出了新的特征集合,实验证明这些特征有效地改善了蛋白质相互作用关系抽取效果。另一方面,我们定义了关系的方向并成功地抽取相关信息,而这些信息是前人的工作中很少涉及的。在抽取蛋白质相互作用关系时,将关系抽取转化为分类问题,使用基于SVM的方法进行处理,研究重点在于特征的设计。我们在词特征集、词性特征集等传统特征集的基础上,根据生物医学文献的特点开发出了逻辑特征集和句法特征集。在LLL05语料上的实验结果显示,抽取的F值达到了80%左右,并且新开发的特征集对实验结果具有较大的改善作用:依存句法特征集对准确率和召回率都有很大的提高,即使单独使用时都具有很好的效果;而逻辑特征集虽然很简单,但是可以较大幅度地提高召回率。本文在蛋白质相互作用关系抽取的基础上进一步研究了如何判断关系的方向,因为方向信息是构建完整的生物实体知识网络不可或缺的内容。这一步仍然将方向判断转化为分类问题,在基本特征集的基础上,本文根据生物医学文献描述蛋白质相互作用的文本的语言特点,开发出了上下文特征集、子树特征集和从句特征集等,是分别针对两个蛋白质依赖于同一个交互词和两个蛋白质依赖于不同交互词两种情况设计的。这些特征集在LLL05语料上进行了实验评估,以分析不同特征集的作用,结果表明本文开发的特征集具有很好的效果。下一步的工作包括:验证基于SVM方法抽取生物实体交互关系的可扩展性;进一步改善关系抽取效果;构建可视化生物实体知识网络等。
其他文献
本文搭建了基于倒置显微平台的被动微流变实验系统。选择粒径为0.49μm的荧光微球为探针颗粒,以连续激光器(功率为1.5W,波长为532nm)为光源,用电子倍增EMCCD相机进行图像采集,采用单颗粒追踪技术,在测量探针颗粒布朗运动基础上,分别开展了聚氧化乙烯(PEO)溶液在自由与受限空间的被动微流变实验研究。首先,针对常温(20℃)条件下纯水中探针颗粒布朗运动进行了测量,以验证实验系统和测量方法的可
量子绝热定理是量子理论中最重要的结论之一,并在理论和实验中有广泛的应用。尤其是近年来,随着其在量子操控、绝热量子计算等领域的应用,量子绝热定理显得更为重要。然而,自从2004年Marzlin对传统量子绝热近似条件提出疑问以来,引起了对传统量子绝热条件的激烈讨论。在理论上,仝殿民证明了传统量子绝热条件是不自洽的,并给出了一个十分严格的量子绝热近似条件。尽管一些人试图证明传统量子绝热条件依然成立,但是
双电子复合(DR)是等离子体中的一种基本的原子过程,对热等离子体中的电荷态分布有重要影响,双电子复合过程中所产生的双电子伴线已成为等离子体温度诊断的重要手段。有关双电子复合截面的精确计算对天体物理和聚变等离子体物理的研究都非常重要。本文利用相对论组态相互作用方法研究了高离化态离子的双激发态能级、自电离几率、和辐射衰变几率,在此基础上计算了双电子复合截面和速率系数,并分析了自电离几率、辐射衰变几率、
要控制在复杂环境下行走的机器人,需要调整其步长、行走速度、步态周期等各项步态参数,复杂的规划需求会带给机器人沉重的计算负荷。近年来,有学者提出了基于双生成函数的步态规划方法,其优点是在规划中可以方便地改变步态参数,同时有着较低的计算负荷。本文主要探究了双生成函数方法在四足机器人对角步态规划的可行性,最终实现控制机器人步态参数可调并能够稳定行走。首先,以猎豹为仿生对象,通过简化其骨骼结构得到四足机器
RNA二级结构预测在生物信息学研究中具有重要意义。含伪结的RNA二级结构预测是RNA研究中的热点和难点问题。研究人员已经从各个角度提出了多种预测方法。现有含伪结RNA二级结构预测算法的主要问题在于算法预测精度比较低、时间复杂度过高两个方面。本文针对这两个问题,分别从改进堆积协变信息模型和使用计算较简单的能量模型两个方面,对同源RNA序列的含伪结公共二级结构预测算法进行研究。本文提出的算法提高了含伪
Swap门是一个重要的两位量子门,在量子通信和量子计算中有着广泛的用途,因此有必要提出直接实现Swap门的有效方案,以减少在量子信息处理过程中实际量子逻辑门的数量,进而节约物理资源。量子纠缠是量子信息学最基本的资源,在量子隐形传态、量子密集编码、量子密钥分配等方面起着关键作用,因而纠缠态的制备引起人们不断的关注。本文着重研究了分别利用腔量子电动力学(QED)的非线性和线性系统来实现量子Swap门和
西新城村地处北京市昌平东北部,420户人家,有村民900余人,村民经济来源以种植为主。西新城村距离兴寿镇东二公里处,距北京约20公里,北邻近燕山山脉,据清《光绪昌平州志》记载,有东西新城之称,建于金章宗元年的双泉禅院元三年重建时改称"双泉寺",历经修复双泉寺已建成现在初具规模的寺院。
期刊
量子信息科学是量子物理学、计算机科学、经典信息论结合而成的新兴交叉学科,量子信息科学的核心在于利用量子力学的特性,对信息的载体量子比特进行操纵控制,以量子力学特有的方式进行信息的编码、存储和传递。量子纠缠是量子信息科学最基本的资源,一种新的多粒子特殊纠缠态—簇态备受人们关注。簇态量子计算,也称为单向量子计算,由Raussendorf和Briegel于2001年提出,计算的物理资源就是初始制备的多量
利用ns时间分辨的高速相机开展强流电子束阴极光学诊断研究,是深入理解阴极爆炸发射过程的一种重要途径。开展光学诊断的前提是保证相机和强流电子束加速器在ns时间尺度保持同步。因而,解决相机的同步触发问题具有重要意义。本文在对相机工作状态和加速器工作时序特性分析的基础上,提出了实现相机同步触发的电延时和光延时两种方案。结合教研室实际情况,构建了基于电延时方案的阴极光学诊断平台,研制了相机的同步触发器,并
超强激光脉冲技术的迅猛发展,极大的促进了人类对于激光等离子体物理的研究。本文围绕超强激光与低密度等离子体相互作用中的一些重要问题—超强激光在低密度等离子体中的传播和尾波场加速中电子注入与捕获进行了二维粒子模拟研究。本文的研究工作是借助于2D3V粒子模拟程序PLASIM来开展的。首先根据课题研究的需要,从Berenger完全匹配层吸收边界的基本思想出发,导出了高斯制电磁场方程所对应的完全匹配层控制方