机器学习算法在生物信息学中的应用

来源 :上海大学 | 被引量 : 0次 | 上传用户:sun8888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
20世纪后期,人类和其他生物物种基因组学的研究飞速发展,生物信息的增长惊人,生物科学技术极大地丰富了生物科学的数据资源。数据资源的急剧膨胀迫使人们寻求一种强有力的工具,运用新的技术手段对复杂的海量生物信息进行储存、管理、分析和研究,组织这些数据,以利于储存、加工和进一步利用,有效管理、准确解读、充分使用这些信息。 本文的工作就是应用机器学习方法来对生物信息数据进行分析,处理。本文的主体工作分为三个部分: 1.用集成学习算法研究蛋白质亚细胞定位预测。蛋白质的亚细胞位置,是蛋白质的一个重要性质,能够表明蛋白质在细胞中的功能。预报蛋白质亚细胞位置,在基因注释和药物设计工作中,都扮演了很重要的角色。本文用基于序列氨基酸组成成分进行蛋白质序列特征编码,选用了AdaBoost与Bagging这两种最重要的集成学习算法来对训练数据集进行建模。在建模过程中,分别尝试了用4种不同的弱分类器来训练样本,并用基于交叉验证法的建模结果来对建模参数进行优化。结果表明:用AdaBoost随机森林算法作为弱分类器时有最好的建模结果,交叉验证预报正确率为76.51%;Bagging用最近邻算法作为弱分类器时有最好的建模结果74.21%。用独立测试样本集对训练好的预报模型进行验证,AdaBoost与Bagging的最大预报正确率分别为80.75%和80.90%,优于SVM方法所得结果(SVM的训练模型交叉验证预报正确率为76.46%,独立测试样本集预报正确率为76.98%)。 2.用支持向量机回归算法(SVR)对1-苯基-2氢-四氢三嗪-3-酮同系物进行QSAR研究。1-苯基-2氢-四氢三嗪-3-酮同系物可用作5-脂抗氧化酶抑制剂。本工作中用来自文献的12个拓扑指数与Hyperchem计算得到的17个物理化学参数作为初始分子描述符,然后用基于SVR留一交叉验证法进行变量筛选,最终得到8个分子描述符用于建立预报模型。该模型的留一交叉验证法的RMSE(最小残差平方和)为0.2834,作为对比,多元线性回归算法(MIR)、偏最小二乘法(PLS)、人工神经网络(ANN)的RMSE分别为0.4301、0.4379、0.4039;SVM与MLR、PLS、ANN的独立测试集验证结果的RMSE分别为0.2834、0.3316、0.3470和0.3581。 3.提出了一种基于MVC架构的服务器设计途径,建立了基于已得模型的在线预报服务器。建立生物信息学预报模型的目的是为了提供对生物信息中的未知对象进行预报的工具,使得预测结果能够为他人所用。为了更好的达到这个目的,将研究得到的预报模型提供给所有相关领域的研究人员,建立在线预报服务器是一条有效途径。
其他文献
采用富集定向筛选法,从旱地小麦的根际土壤中分离到2株产生1-氨基环丙烷-1-羧酸(ACC)脱氨酶的菌株AS和CS。经测定菌株AS和CS的ACC脱氨酶的比活力分别为0.018 6 U/mg和0.016 7
海峡两岸青年科学家学术活动月在福州启动rn2010年海峡两岸青年科学家学术活动月11月2日在福州启动.在接下来的一个月里,海峡两岸青年科学家将围绕基础学科、应用科学、新兴
自爱马仕于2008年出版其首个“艺术家方巾”系列后,于2015年巴塞尔艺术展(6月15日至28日)期间于巴塞尔文化博物馆展出了第四个艺术家丝巾系列——《长征变奏》,该系列由阿根
学位
聚丙烯/聚苯乙烯(PP/PS)是典型不相容聚合物共混体系。在聚丙烯中加入PS可以提高PP的强度,但是由于PS与PP界面相容性较差,PS会导致共混物韧性的下降。本文利用反应挤出的方法制备了高度相容的PP/PS共混物,并制备了相同共混比的简单共混PP/PS共混物与之对比。所得到的主要成果如下:本实验采用过氧化二异丙苯(DCP)和过氧化苯甲酰(BPO)作为PP/苯乙烯单体(St)反应挤出的引发剂,通过对
伊朗西部,克尔曼沙阿。当地农民在自家院里燃起灶火,把面团做成薄饼,放到一个圆形黑色的铁器上。很快,面饼表面鼓起了气泡……  这是纪录片《风味人间》里的一个场景,伴随着旁白这样说着:“生面团的出现,使人类的饮食前进了一大步。”  和伊朗人类似,把面粉与水混合,擀压成薄饼,两面烤熟,这种主食在中国北方也很常见,山东叫单饼。在我老家,它叫烙馍。~~~1~~~  我小的时候,大多数人家都会自己制作烙馍。做
期刊
最近研究发现,高温加热的淀粉类食品中都含有高剂量的丙烯酰胺。而丙烯酰胺是一种神经毒素,是潜在的致癌物质。建立各种高温加热食品基质中丙烯酰胺的检测方法,以及通过控制热加工方法和程序抑制加工过程中丙烯酰胺的生成,是世界各国近年来在食品安全领域的一个重要的研究课题。尽管近年来在世界各国科学家共同努力下建立了几十种适合不同加热食品中丙烯酰胺测定的新方法,并且我国食品中丙烯酰胺检验的国家标准也已经处于验收阶
金属-有机配位聚合物具有丰富多彩的结构变化和特征的拓扑结构,它们在磁性、发光、吸附、储氢、催化等新材料领域潜在的应用价值受到了科学家们越来越多的重视。由于材料的功
3-重氮吲哚-2-亚胺是一类非常重要的有机化合物,它可以作为金属卡宾的前体参与到许多有机反应中。本论文研究了3-重氮吲哚-2-亚胺在二价铜催化下与吲哚类底物和非末端炔烃底物之间的反应,取得的主要结果如下:(1)发展了Cu(OTf)2催化下3-重氮吲哚-2-亚胺与吲哚类化合物的反应,一步生成3,3-二吲哚基吲哚-2-亚胺。这个串联反应涉及吲哚与铜卡宾(由3-重氮吲哚-2-亚胺与二价铜原位产生)的C-
本论文着眼于钌纳米簇的制备与表面改性。课题任务主要分为以下几部分:(1)采用微波加热,在正丙醇等低沸点的一元醇中制备了聚乙烯吡咯烷酮(PVP)稳定的钌纳米棒;(2)在醇/水混合溶