基于生物序列分析的核函数设计及应用——基于距离量度的边际核函数设计及应用

来源 :江南大学 | 被引量 : 0次 | 上传用户:lucasyvette
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
模式分析解决的是检测数据集合中存在的潜在关系问题,它在现代人工智能和计算机科学应用领域的许多问题中发挥着重要作用。我们可以根据模式理解某个数据源中内在的关系、规律性或者结构。通过检测到的数据集合中的显著模式,系统能够对来自同一数据源的新数据做出相关预测。 模式分析领域较新的研究成果-模式分析的核方法,通过把原本存在非线性关系的数据嵌入到某个可以发现线性关系的空间,达到降低求解复杂度的效果。此法之所以行得通,关键在于存在一条计算捷径:通过核函数,能够不用计算具体的非线性映射,就得到输入数据映射到高维空间后的特征。 随着人类基因组计划的快速发展,生物信息学技术在人类疾病与功能基因的发现与识别、基因与蛋白质的表达与功能研究方面都发挥着关键的作用。该学科的许多具体研究工作,就是基于海量的观测数据挖掘内在规律,再通过这种内在规律来做出类别判断或者新的功能预测。比如基因序列分类、蛋白质功能预测等等。 综合技术进步与实际应用的需要,可以考虑将“基于核的学习方法”应用于生物序列分类任务,应用过程中的难点就是计算捷径-核函数的合理设计。本文围绕这一难点展开的工作,主要包括以下三个方面的内容: (1)深入分析了已有的核方法框架。虽然各种任务的目的不同,但是运用核方法的程序,其工作的方式是一致的。算法程序被调整为接受输入数据之间的内积,随后核函数被用来计算输入数据映射到特征空间后的内积,从而使得算法程序在高维空间中仍能正常使用。这一流程说明核方法具有模块性,也证实了它本身作为学习算法的可重用性; (2)探讨了核的基本性质和构造理论,以此为理论基础,分析了K.Tsuda等人提出的边际核函数定义,并通过在边际核特征空间中,进一步引入特征向量之间的距离作为生物序列相似性的度量,提出了基于离量度的边际核函数定义; (3)使用K.Tsuda等人提出的边际核函数和本文定义的基于距离量度的边际核函数,利用模式分析的核方法,随后进行了具体的gyrB(旋转酶B亚单位)氨基酸序列分类实验。实验结果证明基于距离量度的边际核的识别效果要优于原边际核,且也具备一定的推广空间。
其他文献
图示可视化(Illustrative visualization)融入艺术表达方法,将物体或对象的视觉特征直观地、抽象地表达出来,被广泛应用于医学教学、手术训练、流体模拟等领域。本文提出一种基
随着互联网及网络技术的不断发展,流媒体播放成为热点。大众对媒体真实性的需求不断提高的同时,立体视觉的关键技术已经成熟,这给支持立体视觉终端的播放系统的基础研究与应
本文首先综述了国内外受扰线性及时滞系统最优控制理论与最优输出跟踪控制理论的研究现状.然后利用微分方程的逐次逼近方法研究受正弦扰动线性及时滞离散系统的近似最优扰动
高炉物料消耗量是指导钢铁冶金生产、计算各项生产指标的重要数据,具有计量数据量大、种类繁多、关联性强等特点,原人工计量认证过程繁琐、效率低下、容易发生遗漏,不能满足企业
随着计算机的发展,特别是操作系统和多处理器的出现,如何开发高效率的多线程的并发程序也显得越来越重要。传统的基于锁的同步机制解决了多线程对同一对象操作的正确性问题,但是
本课题得到了国家自然科学基金“计算机辅助三维整形外科手术计划与预测关键技术研究”(N60573179)项目支持。随着计算机处理技术的发展,利用计算机辅助整形外科手术计划和结
如今,人类文明已经走入了信息化时代。计算机从诞生至今已经经过了将近70年的发展,它的出现给人们的工作和生活带来了极大的便利。为了给人们提供服务,计算机就应该能够对人们生
网格是一种新型的分布式资源共享方式。它将地理上分布的计算资源、存储资源和信息资源等有机地连接起来,为用户提供统一、标准的网格服务。现今已存在多种网格系统,但是由于
基金报表系统是一个基于Web的J2EE系统。该系统可以让基于浏览器的客户端自定义报表,将WEB请求发送至中间件,然后中间件对后台数据库进行处理,最终生成用户所需要的报表。这样的
随着Internet的普及和网络技术的发展,网络安全问题日益复杂和严重,单靠某一种安全设备已经无法保障网络的安全。现实中防火墙和入侵检测等常用安全技术的不足,显示了研究网络安