蛋白质亚细胞定位预测研究

来源 :南京农业大学 | 被引量 : 0次 | 上传用户:yanji0708
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究蛋白质亚细胞定位对了解细胞生命活动、推断未知特性蛋白质功能、诊断疾病和研制新药等具有重要作用。随着生物信息学的兴起、发展,蛋白质序列数据大规模产生,大量蛋白质亚细胞定位预测方法被提出。本文引入词袋模型对传统的蛋白质序列特征提取算法进行改进,运用支持向量机进行亚细胞定位预测,取得较好的实验效果。论文主要工作有以下几点:(1)采用两个凋亡蛋白数据集ZD98和CH317以及按标准方法构建的革兰氏阴性菌数据集Gram796,并运用经典的SMOTE算法对数据集进行重构。(2)为提高传统蛋白质序列特征的识别精度,提出词袋特征提取算法,该算法引入词袋模型,结合氨基酸组成、伪氨基酸组成特征提取算法利用大量的科学计算尽可能全面地提取蛋白质序列的氨基酸组分信息和位置信息,主要分为蛋白质序列分割、序列单词特征提取、kmeans构建字典和统计计算4个阶段,有效地将蛋白质的氨基酸序列转化为特征向量,为后续的分类预测实验提供优质的样本。(3)为提高实验效率,形成一个高度可扩展的运算平台,为进行大规模的生物学数据分类提供可能。组建Hadoop集群运用MapReduce编程框架实现词袋特征提取的并行化运算。(4)为进行有效的定位预测实验,构造支持向量机多类分类器对蛋白质序列的亚细胞位置进行预测,并运用遗传算法和网格搜索法优化模型参数,提高支持向量机的性能,随后为能同时在不同数据集上进行特征提取和分类预测实验,利用MATLAB的并行运算工具箱PCT实现了定位预测任务的多核并行运算,整体提高了实验效率。(5)为检验算法性能,在数据集ZD98、CH317和Gram796上进行客观有效的Jackknife检验,通过敏感性(Sn)、特异性(Sp)和相关系数(MMCi)3个评价指标,以及总的准确率(A)对算法进行评价。数据集ZD98、CH317和Gram796的预测成功率分别达到了 94.3%,93.8%和93.7%,Sn、S 和MMCt值均有不同程度的提升,实验结果证明提取蛋白质序列的词袋特征并送入支持向量机进行亚细胞区间预测是一种有效的蛋白质亚细胞定位预测方法。(6)结合运用粒子群算法(Particle Swarm Optimization,PSO)和细菌觅食算法(Bacterial Foraging Algorithm,BFA)改进词袋特征提取算法。词袋特征提取的参数搜索空间主要由蛋白质序列分割长度d和字典大小k构成,经PSO BFA优化的词袋特征提取算法能在更短的时间内找到一组或多组参数(d,k)使相应的词袋特征拥有较高的识别精度,在ZD98、CH317和Gram796数据集上的预测成功率分别达到了 95.9%,95.1%和 94.1%。
其他文献
以硫酸钛、乙酸锂为主要原料,采用无机沉淀胶溶法制备了偏钛酸型钛锂离子筛。采用BET、XRD、XPS和ICP-OES对样品的比表面积、孔结构、晶相组成、化学元素组成、溶液中Li^+及T
应用结矩阵和结多项式的性质,通过引入结晶了小多项式和标准结基解矩阵等概念,探讨结知、结多项式与求解二元多项式最大公因式的关系,给出一种求解二元多项式最大公因式的新方法
随着我国老龄化程度不断加深,对社会、经济和文化都带来不同程度的影响,保障老年人的健康晚年是一个全社会都在关注的话题。本文是立足于老年人常见伤病中的跌倒问题,以瑜伽
本文在简要综述网络计量学研究进展的基础上,提出中文网络文献引文分析方法与计量评价模式研究框架,包括研究目标、主要研究内容和重点解决的关键问题,并探讨和展望了我国开展网
首先采用热氧化方法对鳞片石墨进行处理得到热氧化鳞片石墨,以部分取代高炉炭砖中电煅煤细粉的方式将热氧化鳞片石墨引入到高炉炭砖中,借助X射线衍射仪、场发射扫描电镜以及
夜间环境下的车道线检测是汽车智能辅助安全驾驶系统在夜间正常工作的前提和基础。由于夜间环境下存在图像整体较暗、光照不均匀、车道线不易检测的特点,使当前在日间环境下应用良好的算法难以适用。针对此问题,该文提出一种夜间车道线检测的方法。通过从摄像机获取的图像中提取感兴趣区域,采用双边滤波去除感兴趣区域中的噪点,并使用暗光增强算法提高对比度,最后通过边缘检测算法提取出边缘并应用霍夫变换得出直线。应用该文算
一、新财政体制下行政单位财务管理存在的问题(一)财务体制不顺,财务管理制度不健全在现行会计管理体制下,行政单位的财务人员在业务上受财政部门领导,在行政上受本单位领导,会计人
虚拟同步发电机(VSG)逆变器控制策略将同步发电机转动惯量和阻尼系数参数引入到逆变器控制中,为了进一步提升VSG的频率动态调节性能,文中提出一种离网VSG逆变器转动惯量和阻
在一定的几何空间条件下,考虑B值的Burkholder不等式及B值的Mari/cinkiewicz-Zygmund不等式的延伸,并且利用此结果讨论了B值鞅的随机指标和的矩。
采用等离子体辉光放电技术,在以聚苯乙烯为基膜的阳离子交换膜表面接枝苯磺酸甜菜碱(SBMA)单体,制备出具有高选择透过性的阳离子交换膜。对改性前后的膜进行扫描电镜(SEM)、