论文部分内容阅读
随着20世纪末生物技术的发展,基因组全序列测序完成,科学家掌握了大量生物基因数据,为生物信息学发展提供了广阔的空间。计算机学家、数学家和生物学家一起投入到生物信息的破解当中,其中构建基因调控网络吸引大量研究人员的注意。 现代生物学研究表明,一个生物系统所有类型细胞具有相同的基因组。细胞分化主要是通过基因表达水平的变化而不是基因序列改变而实现。基因表达是指结构基因在生物体内的转录、翻译以及所有加工过程。任何影响基因开启与关闭、转录和翻译速率的直接因素统称为对基因表达的调控。共调控基因是受某些转录因子调控的一组基因,是建立基因调控网络的基础。在计算机处理当中,一般认为共调控基因是由至少一个转录因子调控的一组基因。然而现在的研究大多用共表达基因来近似共调控基因,但是它们存在很大不同,不能直接等同。 本文研究了基因表达谱数据,根据其数据特性和生物机理,提出了一种挖掘共调控基因的新方法,主要做了以下几方面工作:第一,仿真一种利用基因表达值变化趋势挖掘正负共调控基因的方法。第二,改进关联规则,关联规则以往一般只能挖掘正规则,本文对算法进行改进还可以挖掘负规则,为提高算法效率,在关联规则中运用统一的哈希树存储和搜索频繁项集,提高时间和空间效率。第三,将遗传算法运用到关联规则中,扩展了产生规则的能力,产生不止一个左项。运用该方法挖掘酵母和拟南芥两种模式生物基因表达谱,得到大量有价值的数据,并通过与数据库比较,查找转录因子和转录因子结合位点,发现所产生的规则确实由相同的转录因子调控,并且上游基因序列中含有类似的转录因子调控位点,为构建基因调控网络奠定了基础,因此可以断定所得规则中基因具有共调控关系。仿真结果显示了该方法在挖掘共调控基因中的优越性,不失为一个有益的探索。