真核生物基因启动子识别

来源 :北京大学 | 被引量 : 0次 | 上传用户:ktaxx01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对生物学家得到的海量数据进行有效的分析和利用是后基因组时代人们所面临的巨大挑战.其中,对DNA序列的分析具有着举足轻重的地位,它对于人们了解遗传信息的传递机制和认识复杂的基因调控网络,从而进一步探索各种遗传疾病的基因治疗有着巨大的意义.由于转录是基因表达的关键一步,对生物基因的转录启动子的识别又是DNA序列分析中极具挑战性的研究课题.在该文中,我们对脊椎动物的启动子的识别进行了研究.通过对转录因子结合位点(TFBS)出现频率的统计分析,我们发现它们之间存在着协同合作关系.基于这个发现,我们建立了启动子识别的随机语言学模型.我们的模型与目前国际上较为流行的通过识别CpG岛及转录起始点(TSS)附近的序列统计来识别启动子的算法有本质的不同,这是因为我们的模型的重点在于识别对转录起始起关键作用的核心启动子序列段,因此我们的预测结果不仅有更为清晰的生物学意义,而且实验生物学家更容易利用我们的结果,特别是更容易验证所我们预测的序列是否的确是启动子的核心部位.经过交叉验证,我们的算法在10﹪的错误率水平下可以识别出EPD数据库中脊椎动物的90﹪的基因的启动子.将我们的算法用到北京大学人类疾病基因研究中心所发现的新基因CKLFSF1上,相当精确地定位了启动子的核心部位,这一预测已为该中心实验证实.通过对目前已有的人类基因的分析,我们发现约60﹪的基因的启动子和转录起始点在DNA序列上的位置是相近的;其余的基因的启动子到转录起始点的距离则超过500bp,甚至可达数千bp.我们进一步较为初步的研究还发现,人的基因的启动子和拟南芥基因的启动子从转录因子结合位点的角度来看事实上有很强的相似性,这对我们利用已有的物种的启动子的研究结果推断其它物种启动子特性提供了理论支持.
其他文献
近年来,随着社会经济的发展,资源分配问题广泛存在于社会各个领域,并成为管理决策的重要内容。决策是人们在政治、经济、科学技术和日常生活中普遍存在的一种选择方案行为,关于决
在数理统计中,总体分布永远是未知的.当总体X为连续型随机变量时,总体分布可以用总体密度函数f(x)来刻画.当然,f(x)是未知的,需要我们用样本来对它进行推断,这就提出了密度估
[目的]建立一套适合我国南方设施草莓无土栽培管理技术方法。[方法]对设施草莓无土栽培的品种、基质配方、栽培模式及营养液配方等进行筛选和优化。[结果]花兰第、红宝、福莓
学位
随着现代技术手段的不断融合,微课已经成为我们老师教学的一个非常有效的手段,那么,怎样才能制作出适合老师教学、有助于学生学习的微课呢?rn一、微课内容的选择rn内容的选择
期刊
四川升达林产有限公司是一家民营企业,始创于1995年2月,1996年10月正式开业运营,企业组建初期就及时成立了党的组织,2001年成立党委,下属5个党支部,共有党员82名。公司党组织
中心多项项式是多项式恒等式(简称PI)理论的一个核心问题之一,在PI理论中起着至关重要的作用.本文将分为四个部分,对中心多项式及其扩张进行研究,介绍其一些较为重要的性质,
煤层气地质储量是煤层气地质评价的重要内容,也是煤层气开发前进行经济评价的主要依据,煤层气地质储量计算的准确与否直接影响到开发的经济效益,因此煤层气地质储量计算方法
该文主要从两个方面来研究Sylow子群的正规化子的性质对群结构的影响.首先我们从算术性质来研究此问题,由Sylow定理,有限群G的Sylow p-子群的个数就是G的Sylow p-子群的正规
该文作者在多年从事兰州大学校园信息化建设的基础上,提出了数字校园的信息域模型、信息域的概念模型和信息域的构架模型,基于分布式对象技术对校园信息域的体系构架(ccc.lzu