论文部分内容阅读
现阶段生物信息学的很多工作都是针对基因组DNA序列的,真核启动子的预测则是DNA序列分析的一个重要组成部分。针对真核启动子预测,本论文中提出了一种新的解决思路,并将此应用于三种不同的学习算法之中。
本文基于DNA双链特征词的统计策略,提出了一种与现有的其他真核启动子预测算法思想不同的新算法。众所周知,转录因子结合位点包括TATA盒、CAAT盒和GC盒等一致序列,但不同个体同一基因的同一个转录因子结合位点一致序列的碱基组成成分存在差异。如对于TATA盒,它的一致序列为TATANAN,此处N代表A或T。对于现有的其他算法这些一致序列是作为不同的特征来分别对待处理,这对提高识别精度影响很大。而本文利用基于双链特征词的统计策略,根据碱基对互补原则,部分一致序列可以作为相同的特征看待。与其他算法相比基于双链特征词的统计策略具有更明显的统计特征。
本文基于双链特征,对DNA序列进行词频统计,并利用KL-Boosting算法和PWM-Boosting算法进行预测验证。KL-Boosting算法与PWM-Boosting算法采用相同的训练和测试策略,但特征提取的方式不同,KL-Boosting算法使用散度距离确定两个类之间的特征,PWM-Boosting算法使用位置权矩阵来统计词的出现频率。在本论文中提出了一个新的算法PWM-RF算法,PWM-RF算法和PWM-Boosting算法使用的特征提取方式相同,所不同的是PWM-RF算法使用随机森林算法进行训练和预测。
本论文中利用三种算法对六种不同长度规模的基因序列进行了测试,并将测试结果与五种对启动子预测效果较好的算法进行比较,结果显示三种算法都有较好的敏感性和特异性。然后将三种算法进行比较,得出结论——三种算法各有其优越性。