论文部分内容阅读
生物信息数据的快速增长促使人们发展新的技术去认识它,利用它。这是认识世界,改造世界的必然途径。生物信息学研究的对象是DNA序列、蛋白质序列。motif是生命密码的一种表现形式,因此利用多序列生物数据发现motif意义重大,它可以使我们发现基因表达的方式和原理。我们将混合模型应用在motif发现过程中,提出了基于样板候选集的生成方法,改进了greedyEM算法。对于精确motif发现问题,提出了用motif家族树的方式来减小模式空间,通过候选筛的方法来减小比对次数的新算法。生命性状是由基因决定,当前基因如何决定性状的研究已从单个基因决定作用转向多个基因的协同作用研究。在分子水平上,DNA序列调控区的motif对DNA的转录翻译起着重要作用,因此对调控区motif的关联分析对研究基因表达有着重大意义和理论价值。本文针对两个不同基因表达模式的起动子motif关联集差异进行分析,提出了先建立FP-树,然后建立字典树森林进行分析比较的有效算法。我们还给出了另外一个挖掘算法,该算法适用于起动子motif数据中的关联规则的发现。