论文部分内容阅读
P53蛋白是一个通用转录因子,通过调控一系列下游基因的转录来完成许多生理功能,涉及细胞周期负调控、DNA复制与修复、细胞凋亡、抑制血管生成以及应答细胞胁迫等。研究表明,p53是一个重要的抑癌基因,寻找P53下游基因,建立完整的p53基因调控网络,是p53相关研究的终极任务。经过实验验证的P53下游基因约有100个,尽管这个数字还在继续增长,但是很可能大部分P53下游基因还未被鉴别。通过生物实验方法来寻找这些P53下游基因费时费力,在综合已知P53下游基因特征信息的前提下利用计算机方法判别P53下游基因成为一个经济而有效的方法,为P53下游基因的寻找带来突破。
本文收集已报道的63条人类P53蛋白结合序列以及El-Deiry实验验证能与P53结合的克隆片段13条。利用PWM模型、词频法和串模型三种方法计算序列的信息特征,加上十聚体之间的插入序列长度共4类特征作为备选特征,利用logistic回归分析方法建立判别分析模型。本文在计算特征时采用两个PWM矩阵来分别对前后十聚体建模,并采用交叉验证法确定已知结合序列中的模体,将确定位置的模体特征信息作为logistic回归分析的对象,通过SPSS提供的logistic回归分析模块对特征逐步选取,最终确定以前后十聚体的PWM得分作为特征信息建立了logistic回归模型。对选取的正数据集和负数据集进行刀切法测试验证了方法的有效性,平均正确率达到了93.91%,略优于其他简单模型,同时模型还具有良好的可扩展性,能够方便的容纳新特征,使识别性能不断提高。