基于机器学习方法的蛋白质亚细胞定位预测研究

来源 :大连理工大学 | 被引量 : 2次 | 上传用户:MickeyMouse01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物信息的爆炸性增长,采用实验的方法收集和分析相关的生物信息已远远不能满足实际研究的需要。人们已经迫切认识到,采用智能数据处理技术解决上述问题可以大大节省时间和成本。蛋白质序列信息是这个领域的研究重点之一,本论文运用机器学习方法对蛋白质亚细胞定位预测和蛋白质结构类预测展开研究,主要工作如下:1、针对革兰阴性杆菌亚细胞定位预测问题,本文提出了改进的选择性集成Elman神经网络方法。首先以Elman网络作为基底分类器;然后利用多种不同的算法来训练Elman网络,以增加基底分类器的多样性;最后用GASEN算法选择合适的网络进行集成,使集成后的各个网络彼此互补,相互协调。采用氨基酸组成成分分析表示蛋白质序列,在自相容验证、留一法验证和独立测试集验证等三种实验模型上都取得了良好的效果。2、针对蛋白质亚细胞定位预测问题,本文构造了一种新颖的亚细胞定位预测系统ELM-PCA,可以预先确定传统的伪氨基酸组成成分分析模型中反映氨基酸序列次序效应的参数。在该系统中,首先让参数λ取最大以包含尽可能多的序列次序信息,然后用主成分分析技术提取关键主特征,最后采用Elman神经网络作为分类器,实验表明ELM-PCA的性能要优于已有的预测系统;同时,将主成分分析技术和伪氨基酸组成模型结合,形成了新的蛋白质表示模型PPseAAC,在几个常用的机器学习算法实验中表明此模型要优于原始模型。3、针对蛋白质结构类的预测问题,本文提出了改进的局部线性嵌入映射(LLE)算法,克服了传统局部线性嵌入映射算法在求取最优重构权值时常常出现的奇异现象。改进的算法基于共轭梯度算法,具有有限步收敛的性质,求解过程中不涉及矩阵的逆运算。在此基础上,把此改进的局部线性嵌入映射算法应用于蛋白质结构类的预测,采用k-nn分类器,伪氨基酸组成模型中参数λ值大于序列长度L。在Jackknife实验中,结果显示本方法具有较好的预测性能。
其他文献
2013年,“开放”“共享”的理念,伴随着以MOOCs为代表的在线教育热潮,再一次成为研究者和实践者关注的焦点。事实上,资源和应用的开放热潮早在MIT“开放课件计划”时代便已经被提
近年来随着"网络造星"现象甚嚣尘上,各种偶像"爆热",呈现出一场集潮流化、视觉化、娱乐跨界与自造IP的"名人大观".网红偶像迎合了观众的娱乐化倾向,然而,在承认其经济效益与
通过对2003年5月9日灵山县某中学遭受一次严重的雷击产生旁侧闪络所致人员伤害事故的成因分析。找出中小学校在防雷意识上所存在的问题,并针对中小学校的防雷现状提出整改防御
<正>灾难性新闻报道,是指针对那些给人类带来灾难的事件报道,它是突发性新闻的一种。灾难性事件主要包括自然灾难和社会灾难两类。其中,自然灾难是指地震、台风、水灾等来自
[摘要] 本文笔者综合运用发展经济学和社会学的分析视野,从理论和政策的层面探讨农民工流动的影响因素进行了深入的分析并作一较为完善的总结,预测农民工未来流动趋势,并提出相应的政策建议。  [关键词] 农民工 流动 经济    上世纪80年代以来,大批的农民工涌入城市务工经商,这既是我国经济社会变革的产物,也是影响我国经济和社会结构变化的重要因素。考察这一社会经济现象的起因及影响因素,不仅是“三农”问
为了提高水力模型校核精度,寻找管网阻抗辨识和管网水力模型构建的最佳观测位置,根据供热管网设计参数计算管道节点压力和流量对阻抗的相对灵敏度,利用谱系聚类算法进行分析,
随着振兴东北老工业基地春风的吹来,一些企业正在或即将焕发出不可阻挡的力量,相应的问题也就凸现出来。建立现代企业制度,加快国有企业改革,提高国有企业经济效益,是当前经
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
《标准化法》、《消费者权益保护法》和《产品质量法》与《药品管理法》相比,前三部法中有关产品质量的行政处罚职权的规定属于一般规定,药品管理法中的有关规定属于特别规定
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield