基于主成分分析优化参数预测水解酶的亚类

来源 :科技创新导报 | 被引量 : 0次 | 上传用户:xiao12112
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:本文基于前人建立的数据库,以氨基酸组分、氨基酸紧邻组分、预测的二级结构、低频功率谱密度值和MEME模体及功能模体频数组成向量来表示序列信息,用主成分分析对序列向量进行分析,选取20个主要成分。将每条序列由20维向量来表示。用SVM算法对水解酶的亚类分别进行分类预测,在Jack-knife检验下的预测总精度为96.9%。
  关键词:SVM算法 主成分分析 水解酶 模体
  中图分类号:TP18 文献标识码:A 文章编号:1674-098X(2018)01(a)-0143-02
  酶是一种生物催化剂,存活在细胞中,影响着细胞生长、代谢等生命过程的化学反应[1]近些年,许多研究者通过利用生物信息学建立了相应的酶序列的数据库,并通过分类预测算法及酶序列的相关特征建立数学模型对酶的家族类及其亚类的研究上取得了较好的预测结果。随着酶序列的相关特征的增多,用来表示序列的向量维数也相应的增加,急需对其进行优化,降低向量的维数,以提高预测的总精度。因此,本文将用主成分分析的方法来降低序列特征的维数,得到较好的预测精度。
  1 数据库和方法
  1.1 数据库
  本文选取2011年由我们小组构建和整理新数据库,其中水解酶5个亚类共4498条序列。
  1.2 特征参数
  1.2.1 氨基酸组分
  蛋白质序列都是由20种基本的氨基酸组成的。并反映了序列的全局信息。前人的研究表明,不同类的酶序列的氨基酸有一定的差异。因此,本文选用氨基酸组分的信息(A)作为参数,来表示酶的序列信息。我们可以将一条酶序列替换为一个20维的向量。
  1.2.2 氨基酸紧邻组分
  本文用氨基酸紧邻组分将每条酶序列用400维向量来表示,以反映序列的结构信息。将一条酶序列替换为一个400维的向量,同上一个参数。
  1.2.3 预测的二级结构
  对于蛋白质分子来说,它不仅只具有一级结构,还有二级结构等。而二级结构反映其空间结构信息。因此,本文选取预测的二级结构信息(P)作为特征参数。
  本文所使用的二级结构信息是PSIpred(Position Specific Iterated pred)软件[2]。对于一条酶序列,我们用一个3维的向量来表示3种二级结构在该序列中出现的频数。
  1.2.4 低频功率谱密度值(F)
  功率谱密度可以反映蛋白质序列的次序信息,本文将用其作为参数取得了较好的预测效果[3],功率谱密度值的提取方法如下[4]。
  (1)将酶序列转为成数字序列。
  由于酶具有强疏水性,因此我们使用疏水值作为参数[6],使得每条酶序列变成数字序列。
  (2)离散傅里叶变换。
  酶序列数字化后,对它进行离散傅里叶变换,具体公式如下:
  1≤k≤L
  (3)提取功率谱密度值:,其中T为周期。
  (4)功率谱密度值的处理。
  因为每条酶序列长短不同,比较和分析其特性有一定的限制,需将长度不同的酶序列变为相同长度。因此,根据信号的组成特点,本文将每条酶序列都转换成15维的向量。
  1.2.5 MEME模体和功能模体
  模体是刻画蛋白质结构和执行功能的重要部分。因此,通过对模体的研究,我们就能得到该序列的功能信息及结构特征。本文选用已被广泛用于DNA及蛋白质序列中模体搜索的MEME在线搜索器作为搜索工具[3]来搜索水解酶中的模体。本文限定6~15个氨基酸残基作为模体的长度,并且每类亚类搜索5个模体类数,统计每条酶序列。
  我们还选取PROSITE搜索得到功能模体[5]。本文將PS_scan模体搜索工具[6]用Perl语言编译实现。用来搜索水解酶的亚类的蛋白质序列中出现的模体。对于每一条酶序列来说,记录模体在序列中出现的频数。把PROSITE搜索得到的5种模体,再加上由MEME软件搜索得到的统计模体,水解酶共得到30个模体频数值。
  1.3 主成分分析
  主成分分析[5](principal component analysis)是由Pearson在1901年提出,直到1933年得到发展。主成分分析是一种通过降维的方法把多个变量化成几个主成分的统计分析方法。这些主成分可以有效地反映原始向量的绝大部分信息。
  本文以氨基酸组分、氨基酸紧邻组分、预测的二级结构、低频功率谱密度值和MEME模体及功能模体频数组成向量来表示序列信息,将468维向量利用主成分分析的方法优选出贡献率较高的20维向量特征。因此,通过该方法每一条酶序列将由20维向量来表示。
  1.4 支持向量机算法
  支持向量机[4](SVM)是一种新型分类预测方法。SVM的基本思想是将把输入数据通过非线性映射映射到一个高维的空间,然后在找到最优超平面,最终超平面与样本之间的距离最大。其中最优超平面的判别函数为:,这里是内积核函数。本文选取径向基核函数进行计算。
  2 结语
  本文基于前人建立的数据库,以氨基酸组分、氨基酸紧邻组分、预测的二级结构、低频功率谱密度值和MEME模体及功能模体频数组成向量来表示序列信息,水解酶共得到468维向量,并用主成分分析的方法将468维向量降为20维向量,将得到的向量输入到支持向量算法进行分类预测,在Jack-knife检验下进行预测,总精度依次为96.9%。其中各亚类的精度分别为98.6%、97.1%、93.7%、95.0%、97.5%。
  参考文献
  [1] 阎隆飞,孙之荣.蛋白质分子结构[M].北京:清华大学出版社,1999.
  [2] Chou K.C.,CAI Y.D.Using GO-PseAA predictor to predict enzyme sub-class[J]. Biochemical andBiophysical Research Communications,2004,325(2):506-507.
  [3] Bailey T.L.,Mikael B.,Buske F.A.,et al.MEME Suite:tools for motif discovery and searching[J].Nucleic Acids Research,2006(37):202-208.
  [4] Ruijia Shi,Xiuzhen.Predicting enzyme subclasses by using support vector machine with Composite vectors[A].IEEE/ACIS Intermational Conference on computer[C].2011:599-604.
  [5] 许忠能.生物信息学[M].北京:清华大学出版社,2008.
  [6] Castro, D.E.,Sigrist,C.J.,Gattiker,A.,et al. ScanProsite: detection of PROSITE signature matches and ProRule-associated functional and structural residues in proteins[J].Nucleic Acids Research,2009(37):202-208.
其他文献
在急性有机磷农药中毒(Acute Organophosphrous Pesti-cide Poisoning,AOPP)症状缓解后和迟发性神经病发病前,一般在急性中毒后24~96h突然发生死亡,称“中间综合征”(Intermed
【正】 现在的名片市场,几乎是清一色的纸张产品,要说变化也只是在加添颜色,版式编排上标新立异,变来变去还是一张纸。青岛市金梦园影像艺术材料研发工作室(电话:0532-391000
本文围绕通信科技档案信息服务工作,阐述了在实践中进一步推进通信档案工作建设、开展通信档案利用的方法并总结了所取得的明显成效。
通过借鉴经济与环境协调度模型,对1980—2010年芜湖市城市化水平与耕地面积、粮食产量及人均粮食产量进行协调度分析.结果表明:城市化—耕地面积协调度水平最低,协调度平均值
制定军校数字图书馆信息资源长期保护标准规范是军校数字图书馆建设急需解决的问题。制定长期保护标准规范要解决好保护什么、谁保护、怎么保护等问题。本文讨论了数字化信息
南京政治学院上海分院军事信息管理系:在元旦佳节即将来临之际,欣闻贵系迎来二十周年华诞,值此喜庆之时,谨向贵系全体师生员工及广大系友致以热烈的祝贺和衷心的祝福!
不同饲养方式对同种鸡肉品质有显著影响,本文利用高光谱成像技术在400-1700nm波段对不同饲养方式下的鸡肉分类鉴别方法进行研究.以宁夏地区杂交肉用型红羽鸡为研究对象,采用高光
【正】 莒南县丰盛花生制品厂始建于1993年,本厂属集体企业。现有干部职工280人,其中管理人员30人,在管理人员中达到大专以上文化程度的占80%。现有固定资产1000万元,流动资产
本文分析了新时期档案用户及其对档案需求的特点,进而对制约档案用户需求的成因进行了分析,探讨了档案用户需求驱动的档案收集模式。
1993年2月~1998年3月,我们采用915MHz微波治疗机局部加热,配合外照射治疗浅表肿瘤100例,取得良好的疗效,现报告如下。1 临床资料 1.1 100例中男31例,女69例;年龄35~76岁,平均年