基于大规模文本的蛋白质交互关系自动提取研究

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:echoofstar
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质作为生命活动的体现者并非孤立存在,而是通过相互的交互作用完成细胞中的大部分过程。蛋白质交互(Protein-Protein Interaction,PPI)网络的建立一直是研究生物过程关注的核心问题。因而由领域专家手工收集的PPI数据库纷纷建立。然而,随着生物医学文献的迅速增长,手工收集PPI信息远远不能满足研究的需要。目前,大量PPI信息仍隐藏在各种生物医学文献中。如何从这些文本中自动挖掘出PPI信息对于PPI网络的建立有着重要的意义。本论文从实际构建PPI网络的需求出发,针对目前蛋白质交互关系识别主要以单句为依据、依赖人工标注而导致训练集规模小等不足,提出了基于大规模文本的蛋白质交互关系自动提取两种方法。两种方法直接以目标蛋白质对为研究对象,以大规模文本为依据,对PPI的判定建立在更多的信息的基础上,直接利用已有的PPI数据库建立训练集而避免了人工标注的额外负担。其中一种方法采用了基于特征向量的机器学习方法,重点比较了四种对向量的特征进行加权和特征选择方案,实验取得了75.89%的F-Score值。另外一种方法在关系相似性研究的框架下建立蛋白质之间的本质联系。从单词、短语结构、依赖关系三个角度抽取特征,建立向量空间模型来表示一对蛋白质之间的关系,最后根据两个向量之间的相似性对关系作出判断。并取得了75.02%的F-Score值。
其他文献
作为计算机视觉研究领域里最热门和最有前景的识别任务之一,视频中识别人类活动的任务在过去的许多年来引起了研究人员的极大关注。不仅仅是因为这是一个人工视觉系统的基本能
20世纪90年代以来,互联网技术快速发展,网页页面样式也越发多样。现时的网页中,充斥着大量的导航、广告等与页面主体内容无关的信息,这些信息和网页的主体信息混杂在一起,大大增加
人脸标定技术是计算机视觉领域识别人脸几何结构的一门技术,它在人脸处理系统中扮演着重要的角色。后期人脸处理的很多任务,比如人脸识别、人脸姿态估计、人脸表情分析等,都
无线传感器网络是一种自适应很强的自组织网络,大量廉价的节点密集部署在监测区域,时刻监测着环境参数的变化,为人类提供很多关于环境的实时数据。如果说因特网改变了人类之
随着科技的发展以及信息时代的到来,不管是购物,还是科学技术,都离不开计算机。但是现在计算机网络上的信息越来越多,对数据的保护反而没有那么重视,所以信息安全必然成为了全社会
计算机硬件技术和软件功能的提升为分布式软件在嵌入式领域的应用提供了广泛的支持。然而在嵌入式分布式软件的开发和调试中存在着分布式软件运行的“不确定性”,难以同时对多
近年来,多类标分类问题成为学术研究的一个热点,多类标分类技术是解决多类标分类和类标排序两大任务的重要技术手段,为了更有效地解决多类标文本分类问题,一种新的基于聚类树的多
随着光学、摄影等技术的不断发展,图像日益成为人们日常生活中不可或缺的部分。与此同时,新兴的图像处理技术尤其是数字图像处理技术不断涌现。作为数字图像处理的一个分支,文本
社会的文明程度和人本身息息相关,从社会心理学角度上来说,人们越来越关注自身和自身所处的环境,这势必会促使人们探索一种观察模式来反映自身及周围的情况。人体运动分析与识别
无线传感器网络采用多跳无线通信,并且节点通过自组织构成网络,以协作的方式处理网络中的信息。在无线传感器网络中,虫洞攻击能够对正确的路由进行破坏。虫洞是一种由两个远距离