论文部分内容阅读
蛋白质在生命过程中扮演着重要的角色,与许多疾病有着密不可分的关系。随着测序技术的不断发展,蛋白质序列信息呈现爆发性增长,但由于人力、物力的限制,蛋白质的结构和功能的分析相比而言发展较为缓慢。传统人工方法通过复杂的实验可以有效的识别出蛋白质的功能结构,但是需要花费大量的时间精力,由此本课题以蛋白质的一级结构为基础,通过机器学习方法分别从两种不同的角度对蛋白质的远同源性检测与折叠识别和抗菌肽的结构功能预测进行了研究。一种是从空间结构的角度入手通过研究蛋白质的进化关系,利用序列谱方法引入更多的蛋白质进化信息来解决蛋白质的远同源性检测和折叠识别问题。另一种是从通过蛋白质功能的相互关系角度入手,通过利用标记之间的相关性,将问题转化为多标签问题来解决抗菌肽功能预测问题。针对如何高效的解决蛋白质的远同源性检测问题和折叠识别问题,本文在序列谱引入进化信息方法和提升序列谱信息质量两个方面进行研究。设计了两种特征提取方法DeKmer-Top和Dekmer-MSA,两种方法分别利用不同的方式从序列谱中提取出蛋白质的进化信息。在使用特征提取方法提取特征时往往会导致维度灾难的问题,本文使用缩减字母表来控制维度的爆发式增长。并且使用两种去噪方法加强生成特征的质量,进一步提升算法的预测表现。针对如何提升现有方法在抗菌肽功能识别问题上的表现,本文设计一个两层预测器框架CHDAMP,第一层实现区分判断蛋白质是否为抗菌肽,是一个二分类问题,第二层对抗菌肽的活性功能进行标记,是一个多标签问题。本文提出了一种多标记方法RAKELECC,从两种不同的角度考虑标记之间的相关性,进一步提升分类器的预测效果。建立更新抗菌肽数据集,其中包含了8100个non-AMP样本,2700个AMP样本和8种不同的功能类别,较之于之前的APD3数据集多出了1821个AMP样本和3种新的功能类别。针对抗菌肽活性功能问题中数据集不平衡的问题,本文提出一种适用于处理多标记数据集不平衡问题的过采样方法NML-SMOTE。对数据集中含有较少样本的功能类别进行合理的扩充来平衡数据集,从而减少由于数据集不平衡导致的分类器预测偏差,最终在比较数据集上实验效果(Hamming Loss:0.1527,Subset Accuracy:0.5006)。