核学习方法及其在生物序列分析中的应用

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:victorcaijun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质序列可以按照功能,结构,亚细胞位置等分成不同的类别。 在计算生物学中的一个很重要的问题是如何自动地进行这个分类过程。 我们从两个角度使用核方法来解决这个问题:首先建立新的字符串核,其次开发新的基于核的学习算法。 首先,我们在核方法的范畴内介绍一个对蛋白质序列相似性建模的框架。在这个框架下,我们可以更灵活的构造不同的核函数为支持向量机的输入。现有的字符串核方法都是基于显式的定义从蛋白质序列到向量空间的特征映射。而我们的方法是通过局部核函数构造和核组合的方法来直接建立核函数的。我们提出的框架提供了有生物意义的核函数,因为我们选取有区分能力的k长氨基酸序列和考虑到了错配,BLOSMM62分值,InterPro项和基因本体。我们在关于蛋白质亚细胞定位和远同源性检测的两个不同的数据集上做了实验。实验结果表明使用我们构造的核函数的支持向量机可以取得比现有的基于序列的方法更好的结果。当使用了InterPro和基因本体的先验知识后,我们的方法和其他使用先验知识的方法有相似的性能。 其次,我们探索了亚细胞位置之间的依赖关系,并且将这种关系用于支持向量机来进行蛋白质亚细胞定位。传统的预测系统使用了“平面”分类器组合结构,比如说一对其他方法和一对一方法。所以,现有的研究基本上都忽略了亚细胞位置问的依赖关系。和这些方法不同,我们使用了一个层次化结构来组织亚细胞位置并且对它们之间的关系建模。我们提出了四种层次化的预测方法,并且在三个数据集上做了比较实验。试验结果表明三种层次化模型在树损失的评价指标下比传统的“平面”模型有提高。有一种层次化模型在所有评价指标下都比“平面”模型有提高。
其他文献
随着互联网技术的发展,嵌入元数据(RDF,RDFa,Microformats等)的网络语义文档包含越来越多的结构化和半结构化数据。已有数以亿计的该类文档可以访问,并且它们的数量正在迅速
无线传感器网络是一种全新的信息获取、处理和传输技术。它集传感器技术、嵌入式计算技术、无线通信技术以及分布式信息处理技术于一体。目前,拓扑控制和路由算法作为无线传
近几年来,随着社会信息化进程的不断深入发展,人类对信息的需求和依赖程度越来越高,如何从海量的信息资源中快速有效的获取有用的信息,已经成为研究的热点,这也给信息检索带来了极
随着计算机软硬件技术、多媒体技术的发展,尤其是虚拟现实技术的发展,用计算机打造一个虚拟世界已经不再是梦想。人们越来越期盼能将自己融入虚拟世界之中,感受身临其境的体
现代的通信方式如电子邮件,博客,聊天室等使得一个通信网络中的个体的交流方式变的多样化,同时也产生了海量的并不断增长的交流数据。这些海量数据为网络中的一些组群掩饰它
随着通讯技术和计算机技术的迅猛发展,分布式对象计算技术的应用越来越广泛。在分布式技术向应用领域扩展的同时,分布式应用对分布式系统提供的服务质量的要求越来越高,分布式系
大数据巨大的潜在价值促使大数据挖掘技术的产生,大数据挖掘是指从具有大规模性、高速性和多样性的数据源中挖掘出有价值知识的数据处理过程;如何准确、快速地从大数据中挖掘
本文论述的工作来源于“十五”国防预研课题“军用嵌入式实时数据库系统”,该课题主要针对军用领域基于VxWorks平台嵌入式系统中的数据管理问题提出的。在嵌入式系统的应用需
工作流是指业务过程的部分或整体在计算机应用环境下的自动化或半自动化执行。但是随着网络技术的发展,应用系统的业务逻辑变得愈加复杂多变,应用数据也趋向于分布性和异构性
随着计算机网络技术的飞速发展,各种网络服务己经渗透到人们生活的各个领域,一方面给人类活动带来了巨大的便利和好处,同时也带来了前所未有的威胁。由于一些重要数据在网络