氨基酸序列的表征、特征筛选及应用

来源 :湖南农业大学 | 被引量 : 0次 | 上传用户：yykk110

【摘要】

：

多肽/蛋白质的类别划分、功能解析是后基因组时代的重要任务。传统实验鉴定的方法耗时费力,基于已知样本的机器学习是快速解决这一问题的有效手段,它包括特征获取、特征选择

【作者】

：

李咏

【出处】

：

湖南农业大学

【发表日期】

：

2004年期

【关键词】

：

支持向量机氨基酸序列表征特征筛选蛋白质折叠速率细胞穿膜肽芋螺毒素

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

多肽/蛋白质的类别划分、功能解析是后基因组时代的重要任务。传统实验鉴定的方法耗时费力,基于已知样本的机器学习是快速解决这一问题的有效手段,它包括特征获取、特征选择与模型构建三个关键环节。多肽/蛋白质的高级结构与功能本质上由其一级结构决定,其高级结构甚难测定而基于氨基酸序列的一级结构简便易得。本文以氨基酸组分、地统计学关联、k-space等表征氨基酸序列(特征获取)。以改进前期发展的二元矩阵重排过滤器、多轮末尾淘汰等特征选择方法,实施特征非线性筛选,去除无关、冗余的特征(特征选择)。以结构风险最小、适用于小样本、能有效避免过拟合的支持向量机为基本建模工具(模型建立),对蛋白质折叠速率数据集进行了回归预测,对细胞穿膜肽数据集、芋螺毒素超家族数据集进行了分类识别,结果如下：基于岭回归与支持向量回归(SVR)预测蛋白质折叠速率。对96条长度大于50的蛋白质序列,以地统计学关联与k-space表征氨基酸序列,分别经岭回归粗筛和多轮末尾淘汰精细筛选,分别保留25个和15个特征。对这两组特征建立SVR回归模型,模型相关系数分别为0.89和0.93。非线性解释体系表明SVR模型和保留的特征均达极显著,序列长度大于50的蛋白质折叠速率与不同亲水比例的二态模型中自信息值、序列频率、侧链角度、相对可变性、含有至少一个脂肪族氨基酸的氨基酸对频率相关。甘氨酸、丙氨酸、亮氨酸等的影响较大,中长距离的影响较大。基于改进的二元矩阵重排过滤器与SVR预测蛋白质折叠速率。在氨基酸序列长度较短时,获取稳定有效的特征尤为困难。合并96条序列长度大于50的蛋白质与19条序列长度小于50的多肽得到115个样本的混合数据集。以氨基酸组分、地统计学关联、k-space等表征氨基酸序列,经改进的二元矩阵重排过滤器初筛,再以多轮末尾淘汰精筛,最终得23个保留特征,以此建立的SVR回归模型相关系数为0.95,以SVR非线性解释性体系分析了模型与保留特征的显著性及单因子效应。结果表明,蛋白质折叠速率与序列长度、重分类的三联体残基组份特征、脂肪族氨基酸、中短程关联特征相关密切。基于序列特征的细胞穿膜肽与非穿膜肽识别(二分类)。考虑531种氨基酸物化性质以地统计学关联表征85条细胞穿膜肽和非穿膜肽序列,采用t检验和多轮末尾淘汰进行特征筛选,去除无关、冗余特征,建立了非线性支持向量分类(SVC)模型,获得了83.53%的准确率,优于文献报道结果。基于序列特征的芋螺毒素超家族识别(多分类)。对芋螺毒素A家族(63条)、M家族(48条)、O家族(95条)、T家族(55条)、非芋螺毒素肽(60条)的数据集,以伪氨基酸组分、κ-space、氨基酸物化性质表征321个氨基酸序列,经二元矩阵重排过滤器和多轮末尾淘汰特征选择后建立了SVC模型,获得了92.83%的准确率,优于文献报道结果,可进一步用于指导芋螺毒素超家族的发现。

其他文献

高效防腐省煤器在重油催化装置中的应用

针对炼油厂重油催化余热锅炉省煤器存在的露点腐蚀问题，采用高效防腐省煤器，避免了露点腐蚀的发生，确保催化余热锅炉省煤器长周期、高效运行，并介绍了它的实际应用情况及产生的经

期刊

重油催化装置高效防腐省煤器露点腐蚀

CCU病室患者的护理

期刊

CCU病室患者护理心理护理

哈萨克文脱机手写字符识别系统的研究与实现

由于手写哈萨克字符结构的特殊性,仅提取几种单一的字符特征进行识别时正确率较低,识别效果较差。由此采用改进的PCA方法定位单词基线位置,对每个字符提取包括笔画密度特征、

期刊

哈萨克字符改进的PCA方法字符特征K—W检验线性判别函数Kazakh character； improved PCA method； characte

B超诊断妊娠中期胎儿脑积水2例

期刊

B超诊断妊娠中期胎儿脑积水

一种FPF编码分析改进方法

针对飞机客观检查系统参数信息存储采用的FPF编码格式不明确导致参数信息利用不充分的问题,提出一种改进的FPF编码格式分析方法。基于WinHex和C＋＋Builder联合分析校验FPF编码,

期刊

客观检查系统编码格式译码objective check system coding format encoding

我国农产品物流效率现状及评价研究

以技术进步、互联网、信息化为特征的全球范围新经济时代的到来,为国家未来经济发展注入了新的活力。物流业作为流通活动的重要组成部分,素来享有“第三利润源”美誉。然而与发达国家相比,我国物流效率整体低下,尤其在农产品领域尤为严重。造成这种问题的原因主要在于效率低下、区域发展不平衡性的问题。造成这种问题的原因主要有农村运输、仓储等基础设施建设不足,农产品物流信息化水平不高,区域发展不平衡等。新时期国家提出

学位

农产品物流效率评价DEA-Malmquist法Tobit回归模型

反流性食管炎漏诊2例

期刊

反流性食管炎漏诊诊断

应用光学方法恢复过成熟干酪根原始母质类型

显微组分在热演化过程中伴随油气生成,其光学性质亦相应发生有规律的变化,其改变程度取决于其原始富氢程度。到过成熟阶段,各种类型干酪根地化特征渐趋一致,伹在光性上仍存在

期刊

过成熟干酪根显微组分生油岩

掌纹识别中的尺度不变特征转换改进算法

针对在低分辨率掌纹图像中,传统尺度不变特征转换算法易产生误匹配的问题,提出一种用于掌纹识别的改进尺度不变特征转换算法。根据局部匹配的思想,结合欧氏距离及加权子区域匹配方法对图像进行匹配,计算得出的相似度能反映图像的局部与全局特征。仿真实验结果证明,改进的尺度不变特征转换算法比原算法具有更高的识别率。

期刊

尺度不变特征转换欧氏距离加权子区域掌纹识别光照不变性Scale Invariant Feature Transform（SIFT） Euclidean

浅谈档案编研选题

档案编研工作一般都按专题进行。选题是档案编研的第一环．也是最重要的一环。俗话说：好的开始是成功的一半。选题是否恰当，直接关系到编研成果的成败。笔者在档案编研工作实践中

期刊

编研选题档案编研工作

氨基酸序列的表征、特征筛选及应用

与本文相关的学术论文