基于篇章的蛋白质交互关系抽取

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:ilovemn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本挖掘的主要目的是自动地从大量文本中抽取有用的信息。生物医学领域的文本挖掘,可以帮助领域专家快速地从相关领域文献中发现对研究有参考意义的信息,此外,还可以减少数据库专家在数据库维护方面所需要的人力和物力。蛋白质-蛋白质之间的交互作用抽取这一课题的相关文献越来越多。这些相关文章的研究都只是针对文献的摘要部分,考虑的只是研究者在摘要中所提到的交互关系,并没有从整篇文章中系统地考虑所有交互关系,并且,全文蛋白质交互关系的评价数据集也相对缺乏。本文使用BioCreative Ⅱ.5中所提供的训练集和FEBS Letters提供的部分文献作为评价集,在摘要关系抽取的基础上,加入全文特有的属性,并通过特征选择进行关系抽取。首先,在对摘要中的蛋白质交互关系抽取的基础上,提出将基本词特征、句法模式特征进行组合。其中,基本词特征中引入篇章位置信息Part、频度特征Coo这两个全文特有的属性;句法模式中,从语句描述的角度总结了关系的模式,并且将其作为一个特征,从而对全文进行关系抽取,取得了72.57%的F-score,AUC达到了77.90%。其次,不同的特征对抽取性能所起的所用也不一致,这些特征进行不同的结合时,正向作用和逆向作用所占的比重也不一致,甚至相互抵消。因此,本文通过特征选择的方式,对基本词特征和句法模式特征进行选择。特征选择的主要目的是提高分类的性能或者利用最少的特征维数取得较好的性能。最终,将特征选择获得的子集特征与树核进行结合,进行基于篇章的蛋白质交互关系抽取。句法树是在现有的动态扩展树(DET)的基础上进行二次扩展,形成二级DET。最终,F-score和AUC分别达到了74.46%、78.50%。
其他文献
再制造是指以废旧产品全寿命周期理论为指导,以恢复废旧机电产品原有性能为目的,以节能、环保、优质、高效、节材为准则,以先进技术和产业化生产为手段,对废旧机电产品进行改
采用直流电弧等离子体法在总压力为2x104Pa的15%SiH4+15%CH4+10%H2+60%Ar的混合气氛下,蒸发纯Ni和Fe-Ni合金制备了SiO2/SiC包覆Ni、Fe-Ni合金纳米粒子。利用X射线衍射(XRD)、
目前国内外普遍使用的MWD信号传输方式的数据传输速率比较低,采用钻井液脉冲传输技术仅能达到16bit/s,依靠地层电磁波传输技术也仅能达到相近的数据传输速率。电遥测钻柱是一种
量子理论和相对论理论打开了人们研究世界的大门,大到天体宇宙,小到物体的基本组成,这些理论的发展不断推动着人们对世界的认识,也不断启发着人们开拓创新。以这两种理论为主要依
颗粒材料的分离具有很强的学术与实际应用价值,其分离行为主要有巴西果(BNE)、反巴西果(RBNE)、三明治构型(SP)等著名实验现象。本文主要介绍大球在颗粒床中的分离行为,目前已经
相对于传统光学全息术,数字全息避免了传统全息的湿处理及难以精确复位等不便之处。利用现代数字记录器件和计算机图像处理技术,可以方便准确地对数据及图像进行各种操作,现已被
随着侵彻速度的提高,靶体中的硬骨料对弹体的影响越来越大,同时也开始影响侵彻的深度及弹道的稳定性等。在过去的研究中,硬度在侵彻过程中的作用一直没有得到很好的分析,使用的硬
分子间相互作用在许多物理、化学、生物领域都起着非常重要的作用。范德华(van der Waals, vdW)复合物是研究分子间相互作用的理想模型。随着高分辨的光谱技术和计算机技术以
空化是指在一定条件下液体介质内部出现蒸汽穴或者蒸汽泡的现象。通常,当物体在液体中作高速运动或高速运动的液体绕物体流动时,高速促使空化产生,反过来,空化又极大地影响物体的
水下爆炸实验常用于炸药威力、水下兵器破坏力和舰船水下防护力评估,其中压力是水下爆炸实验的一个重要测量参数,而近场冲击波压力的测量中,冲击波压力值变化快、峰值压力高、破