论文部分内容阅读
随着新一代测序技术的发展,DNA测序的时间可以减少两个数量级,而且成本大为减少,这意味着将有越来越多的基因组被测序,因而必将对基因组研究产生巨大的影响。随着已测序的真核生物和原核生物基因组数目的不断增加,推断基因组功能的能力日益重要。本论文分别研究了功能基因组学领域的两个重要问题:蛋白质相互作用位点对的预测和蛋白质编码基因的预测。
目前,通过实验和计算方法,高通量蛋白质相互作用研究能够在完全测序的基因组中产生全面的蛋白质相互作用数据,这为我们提供了在全蛋白质组水平上更深入的发现潜在的蛋白质相互作用模式的机会。相互作用位点的研究对人们理解蛋白质相互作用的识别机制和蛋白质功能,以及针对蛋白互作的药物设计(涉及到疾病通路的蛋白)很有帮助。这里,我们设计了一个通过挖掘高质量的蛋白质相互作用正数据集(GSPs)和同等重要的不发生相互作用的负数据集(GSNs)的新方法,来识别相对于GSNs在GSPs中出现频率(或比例)显著高的潜在的相互作用位点对。为了评估该方法的预测效果.我们用已知的高质量的相互作用位点数据库对预测出的互作位点对进行验证,发现预测结果显著富含于验证数据集中。同时,我们将此方法与已知的互作位点对预测方法进行了比较,发现此方法取得了最高的预测精确度和敏感度。
当前,复杂基因组的测序已经成为常规,然而目前已测序物种还多集中于哺乳动物,植物中已全测序的基因组还比较少。黄瓜是我国重要的蔬菜农作物,能够为人类提供重要的营养成分。中国农业科学院蔬菜花卉研究所发起了黄瓜基因组测序计划,综合使用传统的Sanger测序技术和新一代Illumina GA测序技术,拼接得到了黄瓜的全基因组序列。根据黄瓜基因组序列,我们构建了一个黄瓜基因预测平台,该平台整合了目前常用的基因预测方法,包括cDNA/EST同源比对、蛋白质同源比对和单基因组ab inito基因预测方法。我们一共预测出25268个蛋白编码基因,平均基因长度为2729bp。此外我们还对这些蛋白编码基因进行基本的功能注释,包括寻找其同源蛋白和结构域注释。这为在黄瓜基因组中进一步开展功能注释以及基因家族进化研究奠定了基础。