论文部分内容阅读
核小体是真核生物染色质包装的基本重复单元,由核小体核心颗粒和一条含有H1组蛋白的连接区DNA所组成。核小体核心包括由四种组蛋白(H2A、H2B、H3和H4各两个分子)形成的组蛋白八聚体和在八聚体上缠绕的147bpDNA。因为DNA包裹在核小体中,使得核小体直接影响与DNA相关的一切分子生物学过程,因此找到影响核小体定位的主要因素对于理解生物基因组的调控机制至关重要。在众多的影响因素中,转录因子(TF)和DNA序列本身在核小体定位过程中所起的作用不容小觑。 为了找到对核小体定位(促进核小体形成或抑制其形成)影响最大的转录因子和短核苷酸序列,使用基于最小冗余最大相关(mRMR)的特征筛选和增量特征选择(IFS)算法,结合最邻近结点算法(NNA),对酿酒酵母基因组中53,021条核小体核心区DNA序列和50,299条连接区DNA序列上的转录因子结合位点(TFBS)和短核苷酸序列单元(sequence word)进行了系统分析。最终,我们在35个转录因子家族中找到了9个最重要的家族,在5,460个短核苷酸序列特征中提取出32个重要的短序列单元。使用刀切交叉验证(jackknifecross.validation test)进行评估,使用这9个转录因子家族来预测核小体位置的准确度高达87.4%,而使用32个短核苷酸序列单元来进行预测的准确度也能达到76.5%。 在核小体定位过程中,基于序列本身的DNA柔性扮演着重要角色;这导致在基因组范围上核小体更易快速组装而非解体。而核小体定位则直接影响着转录因子的结合:与核小体核心区的DNA序列相比,转录因子更倾向于结合连接区DNA序列上的转录因子结合位点。此外,还发现,在核小体定位过程中起重要作用的部分转录因子和短核苷酸序列单元,在区分易于包裹进核小体核心的DNA序列和抑制核小体形成的DNA序列时作用甚微;这可能与大多数人的日常观点相左。转录因子和DNA序列本身在核小体定位过程中所起的重要作用不容置疑,研究成果将会对分析影响核小体定位的因素以及预测核小体的定位大有助益。