论文部分内容阅读
真核生物的多聚腺苷化(Polyadenylation)过程是基因转录为成熟mRNA的关键步骤。多聚腺苷化位点(poly(A)site)决定着基因转录的终止位置,对基因的表达具有十分重要的调控作用。如果一个基因存在多个poly(A)位点,其前体mRNA会在多个位点处选择性剪切,即通过选择性多聚腺苷化(Alternativepolyadenylation,APA),从而产生长短不同的mRNA,实现基因表达的多样性。选择性多聚腺苷化过程大量存在于真核生物中,在水稻基因中,超过70%的基因具有两个或以上的poly(A)位点。分析和识别不同类型的APA位点及其组织特异性有助于基因表达的机理研究,也能促进对生物体生长发育过程的理解。基因的组织特异性研究是探索生物体生命活动进程和组织细胞功能的重要步骤。生物技术的发展使得各种生物组织的表达量数据呈现大规模增长的趋势,这为组织特异性的研究提供了可能,但也给处理和分析全基因组大规模数据带来了挑战。在组织特异性APA位点的识别方面,当前的研究多侧重于动物。植物由于poly(A)位点的分散性、多变性、复杂性的特点使得组织特异性基因识别十分困难,目前还没有植物中识别组织特异性APA位点的相关研究。本文基于支持向量机(Support Vector Machine,SVM)和递归特征消除算法(Recursive Feature Elimination,RFE)对水稻组织特异性APA位点进行识别研究。首先,通过对水稻14个组织提取APA位点、数据的标准化等过程获得APA位点所在基因的表达量数据;其次,通过熵的均值权重法从基因表达量数据中筛选出组织特异性和非组织特异性APA位点数据,并以此数据作为真假组织特异性APA位点数据集;再次,根据水稻组织APA位点上下游区域的信号特点,提取其位点近邻特征、Z曲线特征、二级结构特征、核小体特征、一阶马尔可夫异构矩阵特征构成特征空间;最后,使用熵值识别出的2693个组织特异性APA位点作为训练集,使用SVM-RFE算法进行特征选择后构建SVM识别模型。实验结果显示,SVM-RFE算法使得识别模型的识别正确率由0.68提高到0.7,位点近邻特征是识别组织特异性APA位点的最重要特征。结果说明本文使用SVM-RFE算法对植物组织特异性APA位点进行识别的方案可行且有效。