氨基酸序列的表征、特征筛选及应用

来源 :湖南农业大学 | 被引量 : 0次 | 上传用户:yykk110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多肽/蛋白质的类别划分、功能解析是后基因组时代的重要任务。传统实验鉴定的方法耗时费力,基于已知样本的机器学习是快速解决这一问题的有效手段,它包括特征获取、特征选择与模型构建三个关键环节。多肽/蛋白质的高级结构与功能本质上由其一级结构决定,其高级结构甚难测定而基于氨基酸序列的一级结构简便易得。本文以氨基酸组分、地统计学关联、k-space等表征氨基酸序列(特征获取)。以改进前期发展的二元矩阵重排过滤器、多轮末尾淘汰等特征选择方法,实施特征非线性筛选,去除无关、冗余的特征(特征选择)。以结构风险最小、适用于小样本、能有效避免过拟合的支持向量机为基本建模工具(模型建立),对蛋白质折叠速率数据集进行了回归预测,对细胞穿膜肽数据集、芋螺毒素超家族数据集进行了分类识别,结果如下:基于岭回归与支持向量回归(SVR)预测蛋白质折叠速率。对96条长度大于50的蛋白质序列,以地统计学关联与k-space表征氨基酸序列,分别经岭回归粗筛和多轮末尾淘汰精细筛选,分别保留25个和15个特征。对这两组特征建立SVR回归模型,模型相关系数分别为0.89和0.93。非线性解释体系表明SVR模型和保留的特征均达极显著,序列长度大于50的蛋白质折叠速率与不同亲水比例的二态模型中自信息值、序列频率、侧链角度、相对可变性、含有至少一个脂肪族氨基酸的氨基酸对频率相关。甘氨酸、丙氨酸、亮氨酸等的影响较大,中长距离的影响较大。基于改进的二元矩阵重排过滤器与SVR预测蛋白质折叠速率。在氨基酸序列长度较短时,获取稳定有效的特征尤为困难。合并96条序列长度大于50的蛋白质与19条序列长度小于50的多肽得到115个样本的混合数据集。以氨基酸组分、地统计学关联、k-space等表征氨基酸序列,经改进的二元矩阵重排过滤器初筛,再以多轮末尾淘汰精筛,最终得23个保留特征,以此建立的SVR回归模型相关系数为0.95,以SVR非线性解释性体系分析了模型与保留特征的显著性及单因子效应。结果表明,蛋白质折叠速率与序列长度、重分类的三联体残基组份特征、脂肪族氨基酸、中短程关联特征相关密切。基于序列特征的细胞穿膜肽与非穿膜肽识别(二分类)。考虑531种氨基酸物化性质以地统计学关联表征85条细胞穿膜肽和非穿膜肽序列,采用t检验和多轮末尾淘汰进行特征筛选,去除无关、冗余特征,建立了非线性支持向量分类(SVC)模型,获得了83.53%的准确率,优于文献报道结果。基于序列特征的芋螺毒素超家族识别(多分类)。对芋螺毒素A家族(63条)、M家族(48条)、O家族(95条)、T家族(55条)、非芋螺毒素肽(60条)的数据集,以伪氨基酸组分、κ-space、氨基酸物化性质表征321个氨基酸序列,经二元矩阵重排过滤器和多轮末尾淘汰特征选择后建立了SVC模型,获得了92.83%的准确率,优于文献报道结果,可进一步用于指导芋螺毒素超家族的发现。
其他文献
针对炼油厂重油催化余热锅炉省煤器存在的露点腐蚀问题,采用高效防腐省煤器,避免了露点腐蚀的发生,确保催化余热锅炉省煤器长周期、高效运行,并介绍了它的实际应用情况及产生的经
由于手写哈萨克字符结构的特殊性,仅提取几种单一的字符特征进行识别时正确率较低,识别效果较差。由此采用改进的PCA方法定位单词基线位置,对每个字符提取包括笔画密度特征、
针对飞机客观检查系统参数信息存储采用的FPF编码格式不明确导致参数信息利用不充分的问题,提出一种改进的FPF编码格式分析方法。基于WinHex和C++Builder联合分析校验FPF编码,
以技术进步、互联网、信息化为特征的全球范围新经济时代的到来,为国家未来经济发展注入了新的活力。物流业作为流通活动的重要组成部分,素来享有“第三利润源”美誉。然而与发达国家相比,我国物流效率整体低下,尤其在农产品领域尤为严重。造成这种问题的原因主要在于效率低下、区域发展不平衡性的问题。造成这种问题的原因主要有农村运输、仓储等基础设施建设不足,农产品物流信息化水平不高,区域发展不平衡等。新时期国家提出
显微组分在热演化过程中伴随油气生成,其光学性质亦相应发生有规律的变化,其改变程度取决于其原始富氢程度。到过成熟阶段,各种类型干酪根地化特征渐趋一致,伹在光性上仍存在
针对在低分辨率掌纹图像中,传统尺度不变特征转换算法易产生误匹配的问题,提出一种用于掌纹识别的改进尺度不变特征转换算法。根据局部匹配的思想,结合欧氏距离及加权子区域匹配方法对图像进行匹配,计算得出的相似度能反映图像的局部与全局特征。仿真实验结果证明,改进的尺度不变特征转换算法比原算法具有更高的识别率。
档案编研工作一般都按专题进行。选题是档案编研的第一环.也是最重要的一环。俗话说:好的开始是成功的一半。选题是否恰当,直接关系到编研成果的成败。笔者在档案编研工作实践中