论文部分内容阅读
多聚腺苷化(poly(A),Polyadenylation)是mRNA成熟的必要过程,对真核生物的基因表达起重要的调控作用。多聚腺苷化过程中进行剪切的位置为poly(A)位点,基因中不同poly(A)位点的选择被称为选择性多聚腺苷化(APA,Alternative polyadenylation),基因通过APA产生不同的转录本异构体,增加了转录组和蛋白质组的复杂性和多样性。随着测序技术的快速发展和运用,产生了越来越多的poly(A)位点数据,而对高通量poly(A)位点数据进行聚类分析,是一种常见且重要的分析手段。通过对APA基因进行聚类分析,可以辅助探索APA调控的基因表达、识别APA调控下的共表达基因集、分析基因表达差异以及预测未知基因的功能。而目前对APA基因的聚类分析是基于基因整体表达水平进行的,采用累加基因上所有poly(A)位点表达量的方式,来得到基因的整体表达水平。本文在APA基因的聚类分析中,考虑APA特异性,提出基于典型相关分析(CCA,canonical correlation analysis)和层次聚类(Hierarchical Clustering)结合的分析方法。该分析方法主要包含三个步骤:1结合基因的APA位点分布和丰度信息,利用典型相关分析来量化APA基因之间的相关性;2利用层次聚类来划分显著相关的基因集,识别不同基因集中的关键基因;3对基因集进行同源性评价,验证聚类效果。同时采用并行框架设计,将所提方法开发了一个R软件包PAcluster,以网站形式公开供相关生物学家和研究人员使用。本文将所提方法主要应用于水稻(Oryza sativa japonica MSU7)的poly(A)位点数据集分析上,并对所得聚类结果与基于皮尔森相关系数、闵可夫斯基距离的聚类结果进行综合比较,结果表明所提方法得到的基因集其同源性程度更高,且显著提高了聚类效果,具有较好的鲁棒性。另外所开发R软件包PAcluster简单易用且计算时间短,可免费下载使用(http://bmi.xmu.edu.cn/software/)。本文的研究工作,有利于辅助生物学家研究APA调控的基因表达。相关方法和R包等内容已发表在JCR国际期刊J Bioinform Comput Biol上。