基于统计学习理论的生物序列特征提取与识别

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:irugi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术、数据库、传感器、基因组学和蛋白质组学的发展,数据供给能力和数据分析能力间的矛盾日益突出,迫切需要一种能够对数据进行深层次加工的自动化技术,数据挖掘技术应运而生。 统计学习理论(SLT)是机器学习领域的一个新的理论体系,它非常适用于解决有限样本条件下的机器学习问题。支持向量机(SVM)是基于统计学习理论发展而来的,它通过Mercer核函数在高维空间中进行分类计算。由于绝大多数生物序列分析问题与类型识别问题都具有小样本、随机性强、高噪声、特征提取困难等特点,所以统计学习理论特别适合解决该领域的问题。但是针对具体的数据类型和研究对象需要采用不同的学习策略,为此本文作了以下的工作:首先借助统计学习理论中的相关结论,结合实际的应用,分析和改进了现有的加权SVM算法以解决生物序列类型识别中的多类样本不平衡问题;然后将特定概率模型与字符串核相结合并应用到生物序列特定位点预测的问题;其次研究了流形上学习的相关理论,给出算法LLE的相关改进;分析了流形上的半监督学习算法Hessian-SVM并与Laplacian-SVM进行了比较;最后,使用元胞自动机方法,以可视化的方式分析生物序列的统计特性,并应用到病毒序列分析中。 在开始部分,本文概述了统计学习理论中与数据挖掘相关的部分结论。介绍了生物信息学的发展现状和特点,阐述了对它们进行研究的意义。 基于该方法的学习还是一门崭新的技术,无论是理论和实际应用中,都有很多问题亟待解决。 首先利用加权支撑向量机解决了进行生物序列类型预测时的不平衡样本问题。 生物序列是本文的主要研究对象,实践上经常需要对序列中某一特定区域或位点做出预测。针对这一数据类型和应用,本文将子位点耦合概率模型与字符串核相结合以预测序列的特定位点。 生物信息学中的一大类问题可以概括为:首先根据先验知识提取大量与预测任务相关的特征构成特征向量,然后在特征空间中进行预测。对于许多的实际问题,可以认为这些样本点(特征向量)在原始特征空间中构成了一个流形,进行预测的过程实质上就是在该流形上进行函数学习的过程。首先介绍了基于流形学习的一些基本的概念和结论,并针对其特例LLE进行了算法上的改进,并将算法SLLE成功地应用到膜蛋白序列特征提取的问题中。然后,利用标号样本和无标号数据(labeledandunlabeleddata)构成的流形分布特征,分析了流形上的半监督学习算法Hessian-SVM,以充分利用无标号数据提供的信息来提高精度,并与Laplacian-SVM进行了比较。 针对一维的RNA序列,用元胞自动机的不同规则将一维的RNA序列映射为二维图谱,分析图谱的特征可以发现SARS序列与其他冠状病毒序列生成的图像有明显的不同。分析产生这种不同的原因,发现在特定区域具有不同的组成特征是生成不同图像特征的根本原因。利用该组成特征可以用来区分SARS序列与非SARS序列,并可应用到实验室研究和SARS病症诊断上。 在生物信息的研究中,网络已日益成为学术研究和交流的平台,我们在网络上给出与本研究相关的服务和资料。 本文的创新体现在:1.给出LLE算法的详细推导过程,证明该算法在保留局部信息的意义下是最优的,给出其有监督形式SLLE和若干改进,并提出将非线性特征提取技术应用到膜蛋白类型预测的问题中; 2.将子位点耦合概率模型与字符串核相结合,以预测生物时间序列的特定位点;3.用元胞自动机的不同规则将一维生物序列映射为二维图谱,通过分析图谱的特征以发现生物序列之间的统计特性并分析关联影响; 4.利用加权SVM解决多类训练样本集严重不均衡造成的问题; 5.分析了流形上半监督学习算法Hessian-SVM,以利用未标号样本的信息提高预测精度。 6.给出对应于本研究的网络资源与服务; 7.在应用方面:使用SLLE以及加权SVM应用到膜蛋白类型预测中;将本文给出的字符串核应用于蛋白质剪切位点的预测;将本文给出的可视化序列分析方法应用到SARS序列分析中。
其他文献
随着空间科技的发展,人类需要在太空中从事的科学研究和探索越来越多,但是太空环境恶劣,送人类到太空的成本昂贵、风险太大,因此空间机器人应运而生,自由浮动的空间机器人因
在连续时间控制问题中,非光滑(C0)控制方法区别于连续可微(C1)控制方法的特点在于这类控制方法不仅可以体现出更快的收敛速度,而且还能提高闭环系统的抗扰动性能等.近年来,非光
随着数字图像处理技术的发展,图像处理系统的应用已经深入到关系国计民生的许多领域.但同时,由于图像处理涉及的数据量比较庞大,处理速度成为了制约其发展的瓶颈之一,实时图
随着计算机和人工智能技术的发展,自主移动机器人的研究得到广泛的关注。在民用领域,自主移动机器人被应用于娱乐、家庭服务、科学实验等;在军事领域,机器人替代人在危险的场合从
本文引入了新兴的GPS/GIS技术,采用浮动车的方法采集交通数据,制定路网的层次划分方案,用动态数据对路网功能层次进行评价。本文重点讨论了GPS数据记录仪的研制、数据的采集
随着计算机网络和通信技术的飞速发展,电子商务和2G、3G 移动网络的普及,促进了移动电子商务的普及和发展,数字媒体亦得到广泛应用,随之而来的数字媒体的知识产权保护和认证
曲线形态是一类重要的目标特征,具体包括直线、圆、曲线、具有宽度的曲线结构和轮廓等,已广泛应用于字符、零部件、建筑物和道路等目标检测中。由于光照、相机抖动或磨损等的影
  本文以跳跃系统模式下的Lyapunov稳定性理论和Lasalle不变集理论为基础,对不确定跳跃系统的随机稳定性分析、保代价控制、自适应控制、鲁棒非脆弱H∞控制以及串联生产系统
本课题以开发研究"IC卡智能仪表"为背景,对全电子式IC卡预付费电能表进行了分析和设计,对其仪表系统IC卡安全问题进行了初步研究.本文首先叙述了电能表的现状及发展趋势,分析
温度控制系统在工业控制中得到广泛应用,适用于机械、冶金、电力、化工、纺织、食品、陶瓷等行业。而基于PCI总线的自适应温度控制系统由于其接口设计复杂,采集传输速率高而