基于索引结构及二项分布的酵母核糖体蛋白基因转录因子结合位点识别及基因相似性分析

来源 :云南大学 | 被引量 : 0次 | 上传用户:WZX10
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因序列的相似性主要是由基因功能的相似性决定的,通过序列比较可以发现生物序列中的功能、结构和进化信息,一般认为相似性很高的序列往往在进化上存在同源性,因此在酵母核糖体蛋白基因序列(Ribosomal Protein,简记为RP)相似性比较中,我们认为具有相同调控元件的基因具有同源性。所以本文通过寻找酵母RP基因启动子序列中可能的转录因子结合位点,并与实验对比找到真正的转录因子结合位点,再把这些转录因子结合位点通过C++程序定位到相应的基因中,从而找到的这些被相同转录因子结合位点调控的基因即为相似性基因。   我们以酵母RP基因启动子序列作为样本,通过频率变换及频率变换向量之间的距离求出距离,距离为零说明序列有可能相等,反之则序列片段一定不相同。然后把这些距离为零的序列片段通过权向量变换之后并求出权向量之间的距离,把距离为零的归为一类。利用已定义的概率分布求出其概率,再对这些序列片段求出KL散度,分析显示KL散度相等说明序列片段相等,这样可以统计出相同模体出现的次数。最后通过二项分布计算出模体在样本中出现的平均概率从而找到可能的转录因子结合位点。把这些转录因子结合位点定位到相应的基因中,就可以确定相似性基因。从分析结果来看,通过本文得到的转录因子结合位点和相似性基因结果都与实验得到结果基本一致,吻合率达95%以上。   本文把这种基于索引的查询技术用于模体比对中,通过这样的索引方法可以快速而准确地统计出模体出现的次数,这种方式比传统枚举方式速度提高了约17倍。同时我们还将索引技术与DNA序列图形表示法及熵相结合,使得为多个基因组或者样本数量很大的时候统计相同模体出现次数提供了合理快捷的方式。
其他文献
对于“课堂提问”的定义,用《现代汉语词典》中的解释可表述为:“提出问题来问.”提问对于课堂的意义,正如美国教学法专家斯特林·G·卡尔汉所指出:“提问是老师促进学生思维
该文研究了具有跟踪性的可扩流的谱分解中基本集的整体性质,其中包括稳定集和不稳定集的性质、无环性、汇和源以及滤子的存在性;最后研究了可微流的Ω稳定性,得到与微分同胚
初三阶段学生无论在生活体验,还是情感和智力上都有了较为充分的发展.所以教学方法上要立足于结合他们的生活经验使其获得系统的知识,发展个性,同时培养融洽的师生情感.化学
在科技飞速发展的现代,海量数据处理已经是现代科学研究的重要课题,尤其表现在机器学习,数据挖掘,图像信号处理等领域.负矩阵分解(NonnegativeMatrix Factorization, NMF)所
该文研究不完全市场的一般均衡的存在性.对于消费者的需求为集值映射纯交换经济 模型,作者证明了实在资产的不完全市场的一般均衡的存在性:如果消费者满足通常 的连续性条件,
近几十年来,人们广泛关注于锥规划的解的灵敏性和稳定性分析,并在此方面取得了重大进展,但仍有许多重要的问题尚未解决.我们知道在有限维空间中,任意一个闭集值映射在其图的任意
中共中央举办的省部级主要领导干部树立和落实科学发展观专题研究班2月16日在中央党校开班,2月21日结业。中央党校校长曾庆红同志在开班式上作了重要讲话,中共中央政治局常委
国家民委系统党建工作会议2月底在京举行。会议认真学习了党中央一系列重要会议精神,学习了关于科学的发展观、人才观、正确的政绩观、群众观特别是科学发展观的重要思想,总
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
通过对现有的理性秘密共享方案的研究,本文发现这些方案在秘密分发过程中都存在着通过单独的安全信道传送信息的情况,而且都是在门限方案的基础上进行研究的.针对这些问题,利