论文部分内容阅读
理论上而言,生物体中的转座行为呈随机性,在基因组中只有小部分区域没有转座子的存在。但据实际观察来看,转座子在基因组中的分布呈现高度的非随机性,并且不同的种群之间分布规律也各不相同。基于目前的实验可以发现转座子的分布方式大致可以分为两种:一种远离编码区,并通过甲基化或呈异染色状态来保持活性;另一种则插入到编码区或者编码区附近。导致转座子非随机分布的因素大致也可分为两类:一类为对插入到编码区的转座子的自然选择作用,另一类为染色体的重组导致转座子的数量的减少。基于以上理论可知,转座子的非随机分布很可能在基因组的某些区域形成一些转座子的聚集区,而这些聚集区又与编码区的位置以及重组热点有关。研究转座子的聚集区对研究转座子的分布规律,以及功能基因的位置有重要意义。
本文在第三部分通过数学方法证实了在生物基因组中转座子聚集区存在的可能性,然后使用密度聚类算法对dictyostelium discoideum等4种模式生物的转座子在其基因组中的分布进行研究,并提供了识别转座子聚集区边界的方法。在第四部分比较了已有几种转座子预测方法,最终选择了RepeatScout算法作为改进算法的基础,然后依据第三部分得到的理论依据对此算法进行改进,并通过实验对比改进前与改进后两者在转座子预测上的差异。实验表明本文采用的改进策略是有效的,使用改进后的RepeatScout不仅在精确度上有所提升,而且发现了原版不能预测到的转座子。