蛋白质亚细胞定位的识别

来源 :内蒙古工业大学 | 被引量 : 1次 | 上传用户:wuhaozzu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对未知蛋白的功能注释是蛋白质组学的主要目标,其中一个关键的注释是对蛋白质亚细胞定位的识别。蛋白质必须处于合适的亚细胞位置才能发挥其功能,因此蛋白质的亚细胞定位信息对于了解其功能有重要意义。本文基于蛋白质的N端信号和氨基酸组分,从氨基酸序列出发,对植物和非植物两类蛋白质数据集进行了亚细胞定位识别。首先,对不同亚细胞定位分类的蛋白质序列数据集进行特征分析,包括序列的单氨基酸出现频率、紧邻二联体频率和N端信号特征。结果显示单氨基酸组分分布在各亚细胞定位分类的蛋白质序列数据集中有些差别,但不很显著;紧邻二联体频率在各亚细胞定位分类的蛋白质序列数据集中是有区别的;N端信号特征在分泌类蛋白质数据集中与另外三类数据集(植物)或两类数据集(非植物)有明显区别,并且N端特征区别主要集中在N端前30个位置。其次,我们采用了不同的分类特征应用多样性增量方法(ID)进行识别。(1)以N端信号特征为分类特征,取N端前20位氨基酸分布构成400维信息参数。(2)以氨基酸紧邻二联体频数为特征构成400维信息参数。(3)选取氨基酸频数为特征构成20维信息参数。(4)综合N端信号和紧邻二联体频数等特征构成800维信息参数。(5)综合N端信号特征、氨基酸出现频数、紧邻二联体频数等特征构成820维信息参数。分别用自洽检验和5折交叉检验对植物、非植物各类亚细胞定位分类蛋白质数据集进行识别。结果显示应用多样性增量方法识别优劣的核心是特征参数选择的合适与否;在综合不同类信息时,用ID算法直接将多类信息线性整合在同一个多样性量中并不一定能直接提高识别精度。最后,应用多样性增量结合二次判别分析方法(IDQD)进行识别,通过筛选后选取紧邻二联体频数、N端信号特征作为ID的信息参数,用二次判别函数把它们整合。在自洽检验中,植物4类亚细胞定位总预测成功率为96.8%,非植物三类预测总成功率为92.7%;对植物和非植物5-fold交叉检验的总预测成功率分别为87.4%和91.2%。结果表明IDQD算法获得了较高的识别精度,并验证了IDQD是一个有效的分类器。
其他文献
小波分析作为一种日趋完美的新兴理论已在科学研究中得到了广泛的应用。框架理论是小波分析的重要组成部分,其概念是由Duffin和Schaefer于1952年在研究非调和Fourier分析中提
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
期刊
真度,是衡量一个公式的真实程度的新指标.精确刻画逻辑公式真度的方法首先是在经典的二值命题逻辑中而不是在多值逻辑中给出的。那么,很自然的存在如下一系列的问题:如何和谐的填
期刊
本文建立了微分包含意义下的神经网络模型来解决一般非光滑凸规划问题,相比已经存在的用于求解非光滑凸规划问题的神经网络,这种神经网络具有更广泛的应用领域。在对约束集合适
不适定问题广泛的存在于地球物理、生物医学、材料科学、金融工程和工程控制等各个领域中,许多应用科学和技术都有这个问题,譬如:电容层析成像图像重建、地应力测量、晴空卫星红
在2011年出版的义务教育《美术课程标准》中提到:积极探索有效地学习方法,明确以“学生为本”的教学设计的指导思想;引导学生采用自主的合作、探究学习,帮助他们会学、爱学、
期刊
近些年来,许多学者对于Logistic方程解的存在性等问题进行了深入了研究,其中对Logistic方程的两个重要参数r,k是周期函数、渐近周期函数、概周期函数等方面(参见文献[1~7]),近期