利用EST数据定位和注释人类关键器官中表达的新基因

来源 :北京大学 | 被引量 : 0次 | 上传用户:gkhy0907
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
最近几年来,全基因组序列测序的完成、大规模测定EST(表达序列标签)序列技术的完善和高性能计算机的使用,使得用模拟计算的方法大规模的定位和注释基因成为可能。一些研究者已经发展了各具特色的以统计预测为基础或者以实验数据比对为基础的方法来进行基因预测。然而,基因预测问题远未完全解决。尤其是那些在人类关键器官中表达的、可能与癌症等重要疾病密切相关的新基因,更是人们争相发现和研究的对象。 在本文中,我们以定位和注释在人类胸腺(thymus)中表达的新基因为研究目标,综合利用整体基因结构预测、EST序列数据以及其它基因特定功能片段预测方法,把统计预测方法与实验数据的比对验证紧密结合起来。我们使用的数据主要有:人类胸腺EST序列数据(10392个,来自NCBI的dbEST数据库),人类基因组序列数据(BUILD34.3),NT核酸序列数据(从NCBI的FTP服务器获得)等。对于那些在人类基因组中存在而NT库中不存在的EST序列(573个),把它们在人类基因组中定位并延长,分别用GENSCAN进行整体基因结构预测,如果其预测出的编码区与EST吻合,则我们认为此GENSCAN预测的基因可能是一个新基因,因为它至少有一个EST序列支持。然后进一步用其他预测基因特定功能片段的方法来对GENSCAN预测结果中不足的地方加以修正和完善,我们分别用FirstEF、polyadq、PairClusterRcg来预测基因的初始外显子(转录起始点)、PolyA信号(转录终止点)、启动子。最终得到了235个定位和注释好的、在人类胸腺中表达的可能新基因。
其他文献
本文中我们主要考虑了Diffr(M)的一个闭子集D={f∈Diffr(M)|f|Λ=f0|Λ},这里f0∈Diffr(M)是一个固定的微分同胚,Λ是光滑流形M上的一个固定的f0-不变紧致子集。令EKS为D的一个
计算机视觉技术是模式识别与人工智能的一个重要领域,其应用已扩展到农业领域的诸多方面。如植物群体图像分析和种质纯度检测等。本文一方面使用数字图像处理技术分析小麦籽粒
在处理凯勒流形时的形变时,刘克峰、孙晓峰、Todorov A.和丘成桐引进了一个迭代方法。在[45]中,刘克峰,饶胜和杨晓奎在卡拉比-丘流形和紧凯勒流形上,用迭代方法证明构造了整体的B
蒙特卡罗方法是一种通过产生随机样本来进行计算的方法,被广泛的应用于科学计算,信号处理,金融分析等领域.序贯蒙特卡罗方法通过序贯的方法来产生高维随机样本,这个特点使得它更
本文研究Lorenz型不变集。具体研究C1向量场的有奇持续传递集。 本文证明了,C1向量场中具有强齐性的有奇持续传递集,如果奇点的指数与附近系统周期轨的指数满足一定匹配的关
现实世界上大量存在的瞬间突变现象,用脉冲微分方程和脉冲泛函微分方程来描述含有这一现象的系统往往更为确切.脉冲微分方程的研究已有大量的结果.由于脉冲效应的影响,系统原来
本文采用演算的方式对余代数理论进行了研究,并将所得到的理论成果应用于构件化软件开发方法中。在本文中,提出了基于状态的类属化软件组件的余代数模型,并分别给出了两种相关的
当计算晶体相变形成微结构的问题时,往往会导致一个能量泛函极小化的问题。但是理论和实际经验表明,数值方法的有效性很大程度依赖于微结构本身的组成形式。所以研究微结构的可
本文针对商业银行在处理房地产上市公司的贷款申请时所建立的信用风险度量模型进行研究,重点考虑模型中的变量选择及参数估计。在综合国内外研究成果的基础上,利用房地产上市
本文首先介绍空间点过程的一些基本概念,并对点过程中几类重要的检测统计量的研究作一个简要回顾。作为非参数统计量,每个检测统计量都存在不足之处,接下来,本文将分两种情况对检