论文部分内容阅读
随着高通量测序技术的成熟,生物学进入了数据驱动的时代,生物信息学作为一门新兴学科也得到了快速发展。必需基因在生命活动中扮演着关键的角色,如何从海量的基因测序数据中识别并分析其中的必需基因是生物信息学研究的重要任务之一。传统的生物实验方法在必需基因识别问题上存在着耗时耗力等不足,因此基于机器学习的必需基因识别研究成为了该领域的热门研究方向。本文围绕必需基因识别这一问题,分别对古生菌和人类这两类物种的必需基因进行了研究。根据古生菌和人类必需基因的序列组成信息和位置信息来提取相应的特征,进而使用机器学习算法构建必需基因的预测模型。本文的主要研究内容如下:在古生菌必需基因识别研究中,针对已有特征方法不完善的问题,本文提出了Z曲线伪核苷酸法ZCPse KNC,该方法能够充分挖掘必需基因序列包含的碱基组成信息和位置信息。之后运用XGBoost算法计算特征重要性并筛选有判别力的特征,使用支持向量机(SVM)算法训练并构建古生菌必需基因预测模型。最后对古生菌数据集中正负样本不平衡的问题进行了分析探讨,并使用三种过采样方法来平衡数据集。实验结果表明,本文提出的方法在古生菌必需基因识别问题上获得了良好的性能。在人类必需基因识别研究中,人类必需基因数据集相比古生菌存在更为严重的正负样本不平衡问题,针对这一问题,本文提出了基于聚类策略的过采样方法CSMOTE。同时,本文基于ZCPse KNC方法提取了必需基因序列的特征,并采用SVM-RFE+CBR算法筛选特征。最后使用支持向量机算法构建人类必需基因预测模型。实验结果表明,本文提出的CSMOTE过采样方法能够提高模型的预测性能,基于CSMOTE方法构建的预测模型提高了对人类必需基因的识别精度,更具实际应用价值。针对人类必需基因识别任务中序列存在碱基替换的问题,本文提出了新的特征方法cps Mismatch,来获取碱基替换信息,并进一步与cps Kmer特征相结合。之后对特征进行筛选,并使用CSMOTE方法进行数据过采样。使用引导聚集(Bagging)策略进一步提升模型的性能,以支持向量机作为基分类器构建集成学习模型对人类必需基因进行预测。实验结果表明,本文提出的预测模型在人类必需基因识别问题上取得了更好的综合性能。