基于典型相关分析的APA基因聚类研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:xuhanping820
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多聚腺苷化(poly(A),Polyadenylation)是mRNA成熟的必要过程,对真核生物的基因表达起重要的调控作用。多聚腺苷化过程中进行剪切的位置为poly(A)位点,基因中不同poly(A)位点的选择被称为选择性多聚腺苷化(APA,Alternative polyadenylation),基因通过APA产生不同的转录本异构体,增加了转录组和蛋白质组的复杂性和多样性。随着测序技术的快速发展和运用,产生了越来越多的poly(A)位点数据,而对高通量poly(A)位点数据进行聚类分析,是一种常见且重要的分析手段。通过对APA基因进行聚类分析,可以辅助探索APA调控的基因表达、识别APA调控下的共表达基因集、分析基因表达差异以及预测未知基因的功能。而目前对APA基因的聚类分析是基于基因整体表达水平进行的,采用累加基因上所有poly(A)位点表达量的方式,来得到基因的整体表达水平。本文在APA基因的聚类分析中,考虑APA特异性,提出基于典型相关分析(CCA,canonical correlation analysis)和层次聚类(Hierarchical Clustering)结合的分析方法。该分析方法主要包含三个步骤:1结合基因的APA位点分布和丰度信息,利用典型相关分析来量化APA基因之间的相关性;2利用层次聚类来划分显著相关的基因集,识别不同基因集中的关键基因;3对基因集进行同源性评价,验证聚类效果。同时采用并行框架设计,将所提方法开发了一个R软件包PAcluster,以网站形式公开供相关生物学家和研究人员使用。本文将所提方法主要应用于水稻(Oryza sativa japonica MSU7)的poly(A)位点数据集分析上,并对所得聚类结果与基于皮尔森相关系数、闵可夫斯基距离的聚类结果进行综合比较,结果表明所提方法得到的基因集其同源性程度更高,且显著提高了聚类效果,具有较好的鲁棒性。另外所开发R软件包PAcluster简单易用且计算时间短,可免费下载使用(http://bmi.xmu.edu.cn/software/)。本文的研究工作,有利于辅助生物学家研究APA调控的基因表达。相关方法和R包等内容已发表在JCR国际期刊J Bioinform Comput Biol上。
其他文献
在和平时期,实时的对弹药库房中的有害气体成分的含量进行检测,确保弹药储存安全和管理人员安全是弹药储存管理的一项重要研究内容。本文研究了嵌入式系统在仓库环境监控中的具
<正>医学独立实验室起源于传统的医院内实验室,其管理与传统的医院内实验室有很多相似之处,然而,由于其服务时间、服务地点、服务对象、服务内容的特殊性,又具有独特之处。本
会议
采用经过多年度多重复选择改良的良种马尾松幼龄材与一般马尾松成熟材进行造纸性能比较研究.试验结果表明,采用良种马尾松幼龄材制浆造纸是可行的,且比用一般成熟材具有更好
随着信息技术发展变化的脚步日益加快,互联网应用已经同社会生活的方方面面密不可分,而随之而来的信息爆炸情况也出现在各个领域。在互联网不断发展更新的同时,如何从海量数
近年来,刑事犯罪手段越趋向隐蔽化、复杂化,尤其在少数疑难案件的侦查过程中,传统上的侦查手段和方法遇到了新的挑战与考验。在实践中,诱惑侦查手段作为一种特殊的侦查手段,
建设资源节约型、环境友好型的社会是我们新世纪的目标,过去,在将化学能转化为电能这方面使用的主要能源是化石燃料,而化石燃料由于污染严重、资源有限等缺点已经不再符合新
低温燃料电池因具有工作温度低、对环境无污染、高能量转换效率的优点而受到广泛关注。在燃料电池阴极发生的氧还原(ORR)反应比较缓慢,因而能否研究出一种高效、便宜的氧还原催
长期以来,中国产业发展政策以追求高速经济增长为导向,环境政策服从于经济增长目标,导致现有环境工作效率低下,环境保护与治理的压力加大。产业转移,特别是制造业转移,推动产
由于全球气候变化加剧,生态系统的结构和功能也随之发生改变,因此关于陆地生态系统对气候变化的响应研究越来越受到重视。热带森林作为全球最为重要的陆地生态系统之一,在当
运用卡里普索(CALYPSO)结构预测方法,在杂化密度泛函B3LYP/6-311G+(d)基组水平上,对AlnCl(n=2-14)团簇的几何结构与电子性质进行优化计算,并讨论了团簇的平均结合能、能隙、二阶能