论文部分内容阅读
选择性剪接为蛋白质组和转录组赋予了更高的复杂性,使得长度有限的编码蛋白质序列能够在既有长度的基础上,产生各种各样的不同结构和功能的蛋白质,为物种的多样性做出来巨大的贡献。众多的研究表明选择性剪接和疾病有着千丝万缕的联系,透彻了解外显子选择性剪接的调控机制被看作是攻克很多疾病的关键。然而由于包括测序技术和序列分析软件在内的限制,使得绝大部分研究人员将研究的重心放在了长度较长的外显子上,长度较短的外显子(本文称小外显子)一直未受到相应的重视,直到近年两篇《Cell》和《Genome Research》上的重量级文章的发表,使得研究人员意识到现在小外显子的数量已经很多。《Cell》文章指出相对于长度较长的外显子,小外显子表现出更高的序列保守性和更强的调控能力,能通过调节蛋白的互作用结构域来影响神经系统的形成。然而目前功能性小外显子的数据库并没有建立,虽然拥有数量众多的小外显子,其具体功能性与否并不能有效判断。针对小外显子的现状,本文以功能性小外显子的预测为研究对象展开分析。首先,对小外显子的特征进行选取和分析,特征分为基因层面和蛋白层面的特征,之后利用聚类算法选出分类效果较好的特征,其次,根据micro-indel数据标签可靠而小外显子致病性标签不易获取的特点,对micro-indel数据进行特征提取,最后通过迁移学习,将micro-indel数据和小外显子的数据映射到低纬度的共同空间上,在这个空间上,两者的分布相同,之后通过机器学习的方法,在这个新的维度上对小外显子和micro-indel的数据进行训练和预测,最后获得一个分类效果良好的预测功能性小外显子的模型。通过对上述方法识别后的功能性和中性小外显子数据进行特征分析,得知用迁移学习后得到的结果中,预测为有功能的小外显子更倾向于有二级结构,并且更倾向于出现蛋白结构域中,保守性打分也更高。这与之前的研究成果是一致的。这证明了本研究的方法是有效的。同时本文也在众多文献中查证了一些致病小外显子实例,并对它们进行了预测,得到的预测结果同实际结果相同,实例方面也证明了本研究方法的有效性。