论文部分内容阅读
随着高通量技术的飞速发展,大量研究结果产生了海量的生物医学数据。如何从海量的生物医学数据发掘有生物意义的知识和规律是后基因时代人类所面临最具挑战性的生物学问题之一。序列数据飞速增长,而大量参与重要生命活动的基因和蛋白质功能仍然未知。由于生物数据本身的复杂性及不同研究领域存在的不同研究评价准则,人们很难仅从数据本身出发去发现基因和蛋白质的功能信息,因而人们开始通过特征特征提取方式来对生物信息数据中所存在的规律进行挖掘。生物数据的特征提取是生物信息学中最为基本的问题,特征提取算法的优劣直接关系到生物数据信息提取和分析的准确性。本文立足于基因数据和蛋白质数据,围绕基因数据和蛋白质数据的特征提取进行深入研究,根据相应数据自身的特点及其应用背景,提出了三种不同的特征提取算法,并在标准数据集上对方法的准确性、可靠性进行验证及分析。本文主要工作概括如下:(1)蛋白质特征提取是蛋白质相关应用问题的基础,特征提取的不完整是影响蛋白质特征有效提取的主要因素之一。针对该问题本文提出一种基于混合特征的序列特征提取方法。该方法主要是通过利用一些蛋白质序列特征信息构造出一个向量,并以此作为蛋白质的特征向量。基于该方法本文将该特征向量作为SVM或KNN分类器的输入来预测出蛋白质进行亚细胞的准确定位。通过跟其他的一些基于序列信息的蛋白质亚细胞定位方法比较,该方法能够在没有预先知道蛋白质结构知识的情况下自动地对蛋白质亚细胞定位进行预测。从实验结果和时间分析上可以看出本文所提方法在准确度上要优于其他的一些方法,说明了这种方法的正确性和有效性。(2)蛋白质特征提取方法中,研究人员大多偏重于局部信息的提取,这使得所构造的特征仍然不够完整。针对该问题本文提出一种序列数字特征提取方法,该方法忽略了蛋白质的结构和相互作用信息,基于疏水性,极性,电荷性等特性构造出一个向量并以此作为蛋白质的特征向量。该方法获得的特征既包含了蛋白质序列全局信息,又囊括了序列局部信息。基于该方法本文提取蛋白质序列的特征向量并结合最近邻分类算法(KNN)预测蛋白质的功能分类,以解决没有或者其相互作用信息很少的蛋白质功能类预测问题。为了讨论亚细胞定位信息是否对蛋白质功能预测有影响的问题,本文将亚细胞位置信息融入所提特征中,并将其用于蛋白质功能预测,实验显示其效果在某些方面优于其他方法,这也证实了所提方法的有效性。(3)基因表达数据具有高通量、高维、非线性、高噪声以及分布不均的特点,这直接影响了基因数据所含信息的有效提取。本文针对基因表达数据的特点提出了一种新的特征基因选择算法。该方法同时考虑了过滤法和缠绕法在特征选择中的应用,在对原始数据过滤后引入KNN方法对每一条基因进行聚类,然后引入聚类紧密度指标来进一步降低特征基因的维数;考虑到基因与基因之间的相互作用,本文在特征提取过程中引入一种新的特征基因搜索策略。该方法所选择特征基因在具有很好的识别精度的同时也具有较好的冗余。本文将该特征基因选择方法应用于肿瘤亚型识别试验以及关键SNP的选择实验中。结果表明,本章所提出的方法可获得很好的实验效果。