基于文本关系相似性的蛋白质交互关系识别

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:squllwu20090907
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质交互(Protein-Protein Interaction,PPI)信息是生物学研究的重要内容之一。目前通过生物学实验发现的PPI信息主要以非结构化文本的形式保存在生物文献当中,生物学家试图从这些文献中手工地识别出PPI并将其录入关系数据库,用以建立可利用的知识网络。然而随着生物学科技文献的日益激增,通过手工方式来搜集蛋白质交互信息显然难以满足实际的应用需求。因而研究如何从生物医学文献中自动识别PPI对于生物医学的发展具有重要的意义。目前PPI识别效果较好的基于机器学习的方法大多以单个句子作为识别的依据,这种方法忽略了蛋白质交互的上下文信息难以对交互特征进行全面的把握,还有就是需要对训练集句子中的每对蛋白质都进行标注,训练集的缺乏使得其难以满足PPI自动识别的要求。为了解决以上这些问题,本文则在关系相似性框架下以大规模文本为依据,首先建立了基本的关系相似性(Relational Similarity,RS)模型,实验比较了此模型下多种相似性度量策略,权值表示对识别结果的影响,最终得出了比较合理的衡量关系相似性的函数以及权重表示方法,实验结果表明以余弦距离衡量关系相似性以及二值权重表示所建立的基本RS模型识别精确度及召回率均较高(75%左右)且两者之间相对均衡。我们采用此RS模型做初始判断,然后基于大规模语料Pub Med计算出单词特征间的语义相似性建立单词相似性模型;最后针对基本RS模型在关系相似性计算过程中忽略了特征单词间语义关联性的缺陷,在基本RS模型的基础上通过权值调整,特征聚类(添加聚类簇特征,以聚类簇为特征)三种方案引入单词相似性模型做改进从而最终提高PPI系统的识别精度。实验结果表明,单词相似性的引入进一步提高了识别系统的F值,三种方案改进后的模型识别有交互的蛋白质对相对于基本模型依次提高了2.03%,1.59%,2.47%识别无交互的蛋白质对依次提高2.96%,1.73%,2.94%。
其他文献
传统C/S流媒体直播模式的瓶颈,以及IP组播部署上的困境,使得研究人员开始转向研究基于对等网络的应用层组播方案。P2P技术与应用层组播技术的结合,能够发掘网络上对等节点的计算
随着计算机在铝电解生产行业中应用的推广,各厂在生产过程中均采用了计算机监控系统实现对电解槽的自动化控制。北方工业大学自主开发了一套铝电解槽生产数据多维分析系统(Da
视频压缩的最新国际标准MPEG-4 AVC/H.264引入了不少压缩方面的新技术。在运动预测和运动补偿方面引入了1/4精度查找,多模式和多参考帧等新技术,因此在压缩率和图像品质上对比之前
当今经济全球化的社会中,组织不可能孤立存在,组织之间的业务协作变得越来越频繁和重要,很多流程需要分布在不同地域的分支机构进行协作才能完成。为了实现业务上的协作,必须对这
随着数据库和时态处理技术的迅速发展,时态数据库的应用已经渗透在很多领域。而时态数据库中的数据都是海量存储,时态数据管理的一个基本特征是需要管理大容量存储的时态数据,因
电子印章是在电子文档中体现传统印章功能的载体。它除了可以实现传统印章所具有的权威性、不可复制性、不可抵赖性等特点外,还可以通过采用先进的计算机技术消除传统印章诸如
传统中间件侧重于解决分布式和异构情况下的复杂问题,系统的实现细节通过抽象的方式隐藏起来,形成“黑箱”结构,这使系统缺乏必要的灵活性和适应性。为克服这种缺陷,反射机制被引
随着网络和分布式应用的发展和普及,大量的异构数据源应运而生。而异构数据面临着分布性,自治性,运行环境,语法以及语义异构等问题,因此它们不是真正意义上统一的可直接利用的信息
Skyline查询在多目标决策、数据库可视化等领域具有重要的应用价值,作为Skyline查询的一种重要变体,反Skyline查询同样具有重要的应用价值。具有不确定性特点的数据流在现实
现实世界中的流体现象十分丰富,要在计算机图形所构建的虚拟现实环境中对这些现象进行仿真,一直是计算机图形学领域一个十分具有挑战的研究课题。富有真实感的流体仿真技术能够