论文部分内容阅读
基因转录调控是基因表达调控活动中的一种主要方式。启动子是一类与基因转录调控活动息息相关的DNA片段。对启动子的分析研究是揭示特定通路的转录单位,理解基因调控机制及基因结构的研究基础,同时也是基因信息注释工作的工作基础。对启动子的预测识别一开始主要依靠传统的生物学实验,但传统的生物方法成本高、耗时、耗力。近几年,海量生物学数据基础及计算机技术的发展推动着基于计算方法的启动子预测研究的开展。启动子序列的多类特征已被用来对其进行预测识别,多个启动子相关预测模型也相继被提出,但绝大多数预测方法具有局限性。
为改善启动子预测模型效果,本文引入了新的序列特征描述方法用于启动子的特征获取。除了关注模型是否具有令人满意的预测性能,其普适性能也不容忽视。若想提高模型普适性,需要分析更多的启动子序列并获取其更具有一般性或更为全面的序列特征信息作为分类依据。因此,本文以三种原核生物和两种真核生物启动子作为分析对象;在已有启动子研究基础上,引入信息论等信号处理方法综合分析启动子序列获取新的序列特征;特征整合后易造成特征空间存在冗余信息,为剔除冗余信息,采用基于随机森林的递归特征消除算法实现特征选择;利用选择前后的特征信息及BP神经网络分别对上述五个物种构建相应的启动子分类模型;最终通过五折交叉验证方法评价其分类效果。
在原核基准测试集上得到的实验结果:大肠杆菌、枯草杆菌和绿脓杆菌的五折交叉验证结果平均准确率和AUC值分别为0.755和0.814、0.831和0.903、0.788和0.916;通过进行物种间交叉实验来测试模型普适性,以三种原核生物混合数据为基准数据集的物种交叉实验结果准确率和AUC值为0.819和0.804。在真核基准测试集上得到的平均实验结果:对人启动子的预测准确率为0.864、AUC值为0.940;对小鼠启动子的预测准确率为0.782、AUC值为0.825。两种真核生物的物种间交叉实验准确率和AUC值分别为0.823和0.884。以上结果表明本文基于信息论等方法获取的序列特征对启动子的识别是有效的;模型同时具有良好的普适性。这有助于揭示启动子更具普遍性的特征,开发更具鲁棒性的启动子预测模型,对跨物种间进行启动子预测分析和拓展应用具有推动作用。
为改善启动子预测模型效果,本文引入了新的序列特征描述方法用于启动子的特征获取。除了关注模型是否具有令人满意的预测性能,其普适性能也不容忽视。若想提高模型普适性,需要分析更多的启动子序列并获取其更具有一般性或更为全面的序列特征信息作为分类依据。因此,本文以三种原核生物和两种真核生物启动子作为分析对象;在已有启动子研究基础上,引入信息论等信号处理方法综合分析启动子序列获取新的序列特征;特征整合后易造成特征空间存在冗余信息,为剔除冗余信息,采用基于随机森林的递归特征消除算法实现特征选择;利用选择前后的特征信息及BP神经网络分别对上述五个物种构建相应的启动子分类模型;最终通过五折交叉验证方法评价其分类效果。
在原核基准测试集上得到的实验结果:大肠杆菌、枯草杆菌和绿脓杆菌的五折交叉验证结果平均准确率和AUC值分别为0.755和0.814、0.831和0.903、0.788和0.916;通过进行物种间交叉实验来测试模型普适性,以三种原核生物混合数据为基准数据集的物种交叉实验结果准确率和AUC值为0.819和0.804。在真核基准测试集上得到的平均实验结果:对人启动子的预测准确率为0.864、AUC值为0.940;对小鼠启动子的预测准确率为0.782、AUC值为0.825。两种真核生物的物种间交叉实验准确率和AUC值分别为0.823和0.884。以上结果表明本文基于信息论等方法获取的序列特征对启动子的识别是有效的;模型同时具有良好的普适性。这有助于揭示启动子更具普遍性的特征,开发更具鲁棒性的启动子预测模型,对跨物种间进行启动子预测分析和拓展应用具有推动作用。