基于蛋白质序列的癌症驱动突变预测方法研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:wdq007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物信息学是利用数学、信息学、统计学和计算机科学的方法研究生物学问题。癌症生物信息学从信息角度来研究肿瘤的生物学。癌症是一种涉及基因组动态变化的疾病,错义突变构成了人类基因组的大部分的变异。错义突变被鉴定出的数目随着技术的进步和基因组测序方法成本降低增加了很多。然而,癌症基因组中有很大一部分氨基酸置换对肿瘤的进展有很少或没有影响,这些就是所谓的“乘客突变”。另外一部分则对肿瘤的发生与发展至关重要,称为“驱动突变”。驱动突变对了解癌症的发生与发展的分子机制非常重要,人们通过这些机制可以有针对性的对病人进行有效的治疗。目前,对这方面的研究方法非常多,本文使用的是机器学习算法。首先,需要对蛋白质序列进行特征编码。基于蛋白质序列特征提取的方法层出不穷,对蛋白质序列特征编码需要广泛的资源。针对氨基酸残基的理化属性、结构信息、功能信息、进化属性等信息,本文基于2-gram编码与6-letter交换群编码组合方法、氨基酸残基改变值和氨基酸残基替换分值方法进行特征提取。提取的特征越有代表性,预测结果越精确。其次,前述方法获取的特征往往维数较高,通常有一定的冗余性。特征选择是模式识别领域关键性的数据预处理步骤,其结果直接影响着后续分类器的预测精度和泛化性能。本文提出基于最小绝对值压缩与选择算法(Lasso)对驱动突变特征矩阵进行特征选择。Lasso是一种基于一范式惩罚回归求最优解的特征选择方法。另外,本文对每个特征进行权重计算,根据权重大小索引依次加入特征子集以选择出最优特征子集来实现特征选择。与其他算法相比,Lasso不仅能够准确地选择出与类标签强相关的变量,同时还具有特征选择的稳定性。最后,对这些特征子集用机器学习算法来训练模型。为了获得最好的分类性能,本文使用随机森林(random forest)、旋转森林(rotation forest)、极限学习机(extreme learning machine)以及支持向量机(support vector machine)等多种分类器来预测驱动突变,然后将这几种分类器的性能相互比较,并且与其他计算方法的预测性能进行了比较。
其他文献
二十世纪下半叶以来电子信息技术的飞速发展使工业机械的自动化、智能化水平越来越高。工业用机械手臂与计算机技术相结合,产生了工业机器人,它们把人类从危险、繁重的体力劳
语音转换(Voice Conversion)是指通过语音处理手段改变一个说话人(源说话人,Source Speaker)的语音个性特征,使之具有另外一个说话人(目标说话人,Target Speaker)的语音个性
学位
本论文是在国家自然科学基金项目“冰层厚度传感器及其检测方法的研究”(60672028)资助下进行的一项应用基础研究。利用空气、冰与水的电阻率差异的原理进行冰层厚度测量的传
冗余自由度机械臂被越来越广泛地应用于海上作业,火灾救护,建筑等行业。特别是深海勘探,废物与污染处理,道路和桥梁的施工的人力难以完成的特殊领域。具有灵巧结构的智能机械
由于图像在采集时受到雨雾天气、光线等一系列因素的影响,会导致得到的图像不够清晰。不但无法满足人眼的审美需要,而且会影响到图像的后期识别及特征提取。故图像增强是一项不
发酵过程是一个极其复杂的生化反应过程,具有非线性、时变性和不确定性的特点。毕赤酵母发酵在发酵工业中占有重要地位,它可以生产很多结构复杂且不易合成的重组蛋白产品。本文以毕赤酵母表达重组蛋白发酵过程为研究背景,对发酵过程进行分阶段建模与补料优化。首先,通过查阅发酵过程的分阶段建模与补料优化相关的文献,了解发酵过程存在关键参数难以检测和以人工经验确定补料速率的可靠性不高的问题。通过分析算法的优缺点,采用
目前,复杂网络和多智能体系统正以极大的魅力吸引着来自控制科学、信息学、数学、物理学、化学、生物学、医学、管理学、社会学以及经济学等不同领域的专家学者为之开展深入研
电力能源是人们日常生活中最常用的能源之一。随着科技的发展、人类社会文明的进步,小到个人居住环境,大到工厂企业都已经离不开电力能源带来的巨大便捷和利益。电力能源的生产主要有:火力发电、风力发电、水利发电以及核反应堆发电等。在我国的发电企业中,火电厂发电量约占总发电量的80%左右,所以火电厂是我国电力能源的主要来源。火电厂发电所用的主要燃料是煤炭,煤炭在高温燃烧时会产生大量污染物,包括气体污染物和固体
抽油机电机是油田系统中重要的设备之一,其运行状况关系到油田的产油量。而在各油田,为了保证抽油机工作在正常状态,需要掌握整个抽油机的电能消耗及各种电压电流等参数,依靠