基于机器学习的蛋白质相互作用关系抽取的研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:cubel
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物医学领域文献的爆炸性增长,从生物医学文献中自动获取生物医学知识已经成为生物信息学研究的重要领域。由于蛋白质相互作用关系对于生命科学有着特殊的重要意义,因而蛋白质相互作用关系抽取成为当前生物信息学的热点问题。   由于生物医学文献的复杂性和多样性,从中抽取蛋白质相互关系是一个相当困难的任务。本文应用机器学习的方法对蛋白质相互作用关系的抽取进行了深入的研究,研究内容主要包括:   1.研究基于特征向量的蛋白质关系抽取方法,重点探索了如何从自由文本中提取出各种表面特征和结构化特征,并分析了这些不同的特征对蛋白质关系抽取的贡献;   2.提出基于卷积树核函数的蛋白质关系抽取方法,分析了结构化信息的表达形式对蛋白质关系抽取的影响,为进一步的研究奠定良好的基础:   3.研究基于复合核函数的蛋白质关系抽取方法,通过线性复合和多项式复合的方式将基于特征向量的方法和基于树核函数的方法有机结合起来,以期有效捕获关系实例的平面特征和结构化特征。   在AIMed语料库上的蛋白质关系抽取实验表明,基于特征向量和卷积树核函数的复合核函数方法取得了最高为53.7的F值,达到了目前较好的水平。本文的研究和所取得的成果对今后蛋白质关系的研究具有一定的参考价值。
其他文献
随着网格技术的不断发展及网格应用研究的深入,网格环境下业务流程越来越复杂。随着业务流程规模因跨领域跨组织而增大,导致业务流程的高复杂性,就会由于状态空间爆炸而给网
在Ad hoc网络应用中,存在的主要问题是安全问题和资源消耗问题。如何在路由过程中保证安全,并节省有限的资源和通信带宽是目前需要解决的主要问题。本文针对Ad hoc网络路由的
随着大数据时代的到来,传统的技术已经无法满足日益增长的存储需求,分布式存储技术应运而生。HDFS是Apache开发的云计算平台Hadoop的分布式存储系统,可以运行在大规模廉价的
随着互联网的快速发展,计算机软件的运行环境逐渐开放化,软件动态演化已经成为软件工程领域的研究热点之一。面向方面编程(AOP)是一种新兴的编程技术,其关注点分离技术能较好
随着互联网的各种应用在生活中的普及度逐渐提高,全球数据量呈指数级别的增长。根据互联网数据中心的调查显示,早在2011年全球数据量已突破2万亿GB。IBM副总裁在2016年的闪存
随着网页信息量越来越大,采用通用搜索引擎搜索某一个方面的信息时覆盖率和准确率低,回馈的内容不够详细,噪音过多,维护庞大的网页索引库特别困难,在信息的采集和存储面临着
目标反射光在湍流的大气中传播,传播过程中受到随机的干扰,其折射率随时间和空间变化而随机变化,光的传播方向和相位发生抖动,这使成像焦平面产生像点强度随机起伏,强度分布
随着信息技术的发展,数据挖掘技术得到了广泛的关注。在很多研究领域中,关联规则挖掘是数据挖掘中比较重要和活跃的研究方法之一,对它进行深入研究不仅有重要的理论意义,而且
P2P是近年来互联网最热门的技术之一,在VoIP、文件下载、流媒体、协调计算等领域得到飞速发展。P2P应用对网络带宽资源消耗巨大,据统计P2P业务的带宽占用比率大致是40%~60%,在极端
多智能体系统的理论和应用,是人工智能领域重要的研究方向。在本文中,我们将对多智能体系统的构建与分析两个方面进行研究。首先,阐述和讨论了一个多智能体系统的开发方法,并以此