论文部分内容阅读
染色质结构在基因调控中起着重要作用。染色质构象捕获技术(Chromosome Conformation Capture,3 C)是研究染色质结构的重要方法。针对目前高分辨率染色质相互作用数据库匮乏的现状,本文构建了新的3C数据库(Chromosome Conformation Capture Database,3CDB)。我们从PubMed和Google Scholar中分别收集了包含3C实验结果的文献各计2000和3000余篇。通过阅读摘要和全文过滤掉干扰文献,得到含有3C实验及有效结果的文献共482篇。3CDB容纳了3C实验的有效数据3319条,覆盖17个物种的308种细胞系和73种限制性内切酶及其组合。另外,我们针对不同实验室的3C实验技术的差异性制定了“数据可靠性评分体系”,用以评价不同实验数据的准确性与可信程度。3CDB的构建,在一定程度上填补了染色质构象领域3C数据库缺失的空白,为染色质相互作用的精确定位以及构建远端调控元件之间精确相互作用的数量化模型提供重要的数据资源。近年来,环状RNA (circular RNA, circRNA)是RNA领域一个新的研究热点。区别于线性RNA,circRNA是一类两端以3’、5’-磷酸二酯键共价连接的环形RNA分子。circRNA是一类丰富的、稳定的、普遍存在的非编码RNA。大多数的circRNA是由外显子构成,少部分只由内含子构成,还有一部分由外显子、内含子共同组成。除了少数circRNA位于细胞核内,大部分circRNA处在细胞质环境中。目前的证据暗示,circRNA无法编码蛋白质。与线性非编码RNA不同,circRNA没有polyA尾,且不易被核酸外切酶RNase R消化,具有高度的稳定性。目前已有多种circRNA的生物信息学鉴定工具,如circRNA_finder、 CIRCexplorer、CIRI、find_circ、Mapsplice等,其基本原理都是基于识别在测序数据中由于circRNA的环状结构而形成的反向剪接信号。然而,由于跨过剪接位点的反向剪接序列在全部测序数据中的含量极低,传统工具在计算circRNA的表达水平上存在可靠性差的缺陷。我们根据illumina测序技术的基本特点,认为除了反向剪接序列之外,双末端测序序列在文件中的存储顺序也包含重要的RNA成环信息。在测试大量RNA特异性双末端测序样本后,我们发现包含成环信息的反向剪接位点两侧读段具有和反向剪接序列总量相比拟的数据量。因此,本文提出一种识别circRNA方案(CICA),避开跨反向剪接位点的读段而寻找反向剪接位点两侧的成环读段。该方案将是对目前circRNA识别算法和circRNA表达量计算分析的一个重要补充。