论文部分内容阅读
全基因组水平图谱揭示了表观遗传修饰与基因调节、细胞分化和疾病的形成密切相关。而在此过程中,不仅涉及甲基化修饰,还包括许多转录后修饰。作为真核生物mRNA中最常见的转录后修饰N6-甲基腺苷(m~6A)甲基化修饰不仅在基因调节和表达中扮演重要角色,还与多种疾病包括肿瘤、癌症等的基因编码密切相关。而DNA序列中常见的CpG位点低甲基化程度与许多癌症基因的表达也紧密联系。因此,自动、准确和高效的识别核酸序列上的甲基化位点对研究基因的调控、转录和表达机理等基础生物学和开发针对各种疾病的靶向治疗药物具有重要作用。然而,面对后基因组时代海量的核酸序列,传统湿实验均未解决核酸序列上甲基化修饰位点识别的高成本和高能耗问题。因此,基于智能计算的位点识别模型应运而生。本文主要针对核酸上甲基化位点识别的智能计算模型作进一步研究,主要工作如下:(1)研究RNA序列上核酸的物理化学属性,提出物化属性的显著性度量方法,并基于此方法设计启发式选择算法;但由于传统的启发式算法容易陷入局部最优解,又提出改进的基于物化属性显著性度量的K重选择启发式算法。(2)提出基于核酸物化属性的RNA序列m~6A甲基化修饰位点识别方法M6A-HPCS。该方法在常见的两种基于物化属性的特征表示方法伪二核苷酸组成成分和自协方差与互协方差变换下,利用所设计的K重选择启发式算法,分别选择优化的K组物化属性子集,通过最优的子集与对应的特征表示方法重新编码样本序列,并选择支持向量机构建最终的预测模型。实验结果证明,所设计的K重选择启发式算法的优越性,且基于该算法的新识别方法M6A-HPCS能进一步提高RNA序列上m~6A甲基化修饰位点的预测精度。(3)研究DNA序列上甲基化位点单个视角的特征表示方法,针对单视角特征表示方法提取特征的片面性,提出多视角的特征融合策略。(4)针对DNA序列上CpG甲基化修饰位点的预测问题,提出基于核酸结构属性和统计信息相融合的甲基化位点识别方法DNA-MFF。该方法主要融合核酸频次统计信息、位置统计信息和空间结构属性信息三个视角特征信息,并选择支持向量机构建最终的预测模型。实验结果表明,上述三个视角的特征之间具有互补性,采用这三个视角相融合得到的特征向量能够更好地反映DNA甲基化修饰位点的模式特征,显著改善了该位点预测模型的性能。(5)提供了基于K重物理化学属性选择启发式算法优化后的m~6A甲基化修饰位点识别方法M6A-HPCS的在线预测服务,方便后续研究人员对该修饰位点的进一步研究。