基于logistic回归分析的P53下游基因判别分析模型

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:wslin001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
P53蛋白是一个通用转录因子,通过调控一系列下游基因的转录来完成许多生理功能,涉及细胞周期负调控、DNA复制与修复、细胞凋亡、抑制血管生成以及应答细胞胁迫等。研究表明,p53是一个重要的抑癌基因,寻找P53下游基因,建立完整的p53基因调控网络,是p53相关研究的终极任务。经过实验验证的P53下游基因约有100个,尽管这个数字还在继续增长,但是很可能大部分P53下游基因还未被鉴别。通过生物实验方法来寻找这些P53下游基因费时费力,在综合已知P53下游基因特征信息的前提下利用计算机方法判别P53下游基因成为一个经济而有效的方法,为P53下游基因的寻找带来突破。   本文收集已报道的63条人类P53蛋白结合序列以及El-Deiry实验验证能与P53结合的克隆片段13条。利用PWM模型、词频法和串模型三种方法计算序列的信息特征,加上十聚体之间的插入序列长度共4类特征作为备选特征,利用logistic回归分析方法建立判别分析模型。本文在计算特征时采用两个PWM矩阵来分别对前后十聚体建模,并采用交叉验证法确定已知结合序列中的模体,将确定位置的模体特征信息作为logistic回归分析的对象,通过SPSS提供的logistic回归分析模块对特征逐步选取,最终确定以前后十聚体的PWM得分作为特征信息建立了logistic回归模型。对选取的正数据集和负数据集进行刀切法测试验证了方法的有效性,平均正确率达到了93.91%,略优于其他简单模型,同时模型还具有良好的可扩展性,能够方便的容纳新特征,使识别性能不断提高。
其他文献
EPA(EthernetforPlantAutomation)已经作为第十四类型列入现场总线国际标准IEC61158,这极大的促进了基于EPA的各种变送器、执行机构、信号采集模块的设备开发。高效、稳定和高
图像处理是当今计算机科学中最具有前景的领域之一,图像技术有非常广泛的应用。而数学形态学是图像处理中的重要方法之一。数学形态学是建立在集合代数的基础上的,用集合论方法
随着人们对网络多媒体业务需求的不断增加,对等(P2P)传输模式越来越受到人们的关注。采用可伸缩方式对图像编码所得的码流可以适应网络带宽的动态变化,更便于网络传输。但是,可
软件测试作为软件生命周期的一个重要阶段,是保障软件质量的有效手段。软件测试问题的研究越来越引起人们的重视。近年来,工作流软件的开发领域受到了人们的广泛关注,同时也给软
数据挖掘是当前KDD中的一个重要领域,而关联规则挖掘是数据挖掘的一个重要组成部分。Internet的发展促进了数据库技术的深入应用。由于安全及通信成本、效率等多方面的原因,大
本文是在上海水产大学校长基金的支持下,研究基于Web环境下利用Fuzzy推理进行鱼病诊断的专家系统。我们知道鱼病诊断过程中,关于鱼病症状的描述,不同的人具有不同的理解,这就决定
电子邮件以其方便、快捷等特点,正成为传输信息的主要工具而被广泛使用。企业中的电子邮件包含了企业核心机密、技术专利、销售数据、财务数据、市场信息等重要信息。因此,如何
新型的KMS应该从结构和功能实现上进行重新的审视、规划和设计.该文对Web语义化过程中部分关键问题和基于语义化Web的KMS进行了研究,主要的创新性工作包括:1.定义了逻辑公式
视频结构分析是指对非结构化的二维图像流进行处理,形成关于视频内容的结构化数据,它是基于内容的视频检索与浏览的基础及关键,主要有两方面问题:视频时域分割及关键帧提取。
随着互联网的深入发展,人类生产的数据飞速增长,这使得互联网成为大数据的主要来源。其中一类重要的数据就是实体,不同于一般意义上的数据,实体往往是多种属性数据构成的一个整体