基于树核的蛋白质相互作用关系提取研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:muyiwenwu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,生物医学技术发展突飞猛进,相关的科研成果和学术报告更是层出不穷。虽然互联网时代的到来使得大家能够方便地从网络上找到这些信息,但大部分的信息仍然被淹没在海量的生物医学文献中。如果仅靠研究人员手动阅读这些文献是很难及时有效地获取有用信息的,于是便出现了生物文本挖掘技术。在生物文本挖掘领域中,最受关注的还是蛋白质相互作用关系的提取。原因是蛋白质是一切生命活动不可或缺的物质基础,了解其相互作用关系有助于系统地理解生命活动的分子机制,并且对疾病的治疗和新药的研制有积极的推动作用。早期的蛋白质相互作用关系提取研究中应用较多的是基于规则的方法,这类方法不仅耗时长且系统效果过度依赖规则的质量,可移植性差。目前应用较为广泛的是机器学习方法,其又分为特征向量方法和核方法,特征向量方法避免不了复杂的特征向量的构造和映射过程,因此基于核函数的方法是目前主流的方法。然而现在已有的核函数大部分都基于依存信息,很少有研究采用基于成分句法树的核方法来提取蛋白质相互作用关系。事实上,成分句法树本身具有丰富的语法和结构化特征,对蛋白质相互作用关系提取有重要意义。最短依存路径指导的成分分析树算法是其中少有的基于树核的算法。最短依存路径指导的成分分析树算法是用句子中两个蛋白质间的最短依存路径去指导成分句法树的裁剪,但这样生成的句法树仍然不够简洁。原因是最短依存路径上存在同位语依存关系带来的噪音干扰,这种噪音信息不仅增加了句法树表示的复杂性,而且会妨碍分类器的识别和判断。为了解决这个问题,本文提出了有效优化路径指导的成分分析树算法,通过定义相关的处理规则去掉同位语成分,消除对蛋白质相互作用关系提取毫无帮助的噪音信息,最后用优化后的路径来裁剪成分分析树。实验结果表明改进的有效优化路径指导的成分分析树算法对提高蛋白质相互作用关系提取性能是有效的。通过对最短依存路径指导的成分分析树算法在五个常用语料库上的错误分类结果的分析,发现情态动词短语后面表示相互作用的动词容易被最短依存路径遗漏,导致生成的句法树结构不能完整表达蛋白质关系实例。为了解决这个问题,本文在有效优化路径指导的成分分析树算法的基础上又提出了有效优化和扩展路径指导的成分分析树算法,定义相关的处理规则将遗漏的表达蛋白质相互作用关系的动词添加到最短依存路径中,并结合有效优化路径指导的成分分析树算法对同位语依存关系的处理,保证了由有效优化和扩展路径指导生成的成分句法树结构的完整性和简洁性。实验结果表明有效优化和扩展路径指导的成分句法树算法进一步提高了蛋白质相互作用关系提取性能。
其他文献
随着信息时代的快速发展,信息通过网络大量涌入人们的生活中,人们彼此之间通过网络交流更加频繁,人们的隐私信息也更容易暴露在网络环境中,人们更愿意将自己的身份隐藏起来。因此
随着互联网的飞速发展,我国信息产业市场规模急剧扩大,企业信息化和电子商务已经成为信息市场的重点。然而,由于互联网所具有的广泛性、开放性和异构性,使其存在较大的信息安全隐
随着社会的不断发展和进步,越来越多的生产企业呈现出跨地区跨国的发展趋势。互联网的出现与迅速发展,信息技术步伐的加快,使得远程控制技术广泛应用于各个生产企业中。随之而来
在当今社会生活中,火灾是严重危及生命财产安全的自然灾害之一。因此,对火灾的有效检测成为当前一个非常重要的研究课题。传统的火灾探测器需要与可燃物直接接触,存在探测范围小
无线传感器网络(Wireless Sensor Networks,WSN)是一种特殊的移动自组织网络(Ad hoc),其广阔的应用前景使之近年来成为研究热点。由于其自身特点,能耗问题、目标追踪问题等都
随着图像技术的迅猛发展及其应用领域的不断拓宽,图像处理在计算机视觉领域中起到了至关重要的作用。然而由于各种因素的影响(包括外界环境及硬件设备的缺陷等)会使得图像在获得
存储过程作为一种安全、高效的数据库技术已经被广泛的运用在各应用开发过程中,它能够封装应用领域的业务逻辑使软件更加模块化。藉此,将程序自动评估方法引进到这种数据库技术
在信息全球化趋势的带动下,RFID技术的应用领域也随之不断扩大,故其面临的安全问题也暴露的越来越多。近些年来,RFID系统遭受到了一些基于位置距离的攻击,此类攻击具体表现为
烧结过程是钢铁生产的重要过程,烧结矿作为高炉的主要原料之一,其质量好坏直接影响到铁水的质量和高炉的顺利生产。烧结终点是指烧结结束的的位置,是衡量烧结矿产量和质量的重要
近年来随着网民数量和互联网普及率的迅猛增长,新媒体产业也相应的快速发展,特别是其中的视频业务。视频业务由于数据传输量大,对网络带宽、时延、稳定性指标要求更高,这对网