论文部分内容阅读
MicroRNA(miRNA)是一类重要的基因表达调控因子,准确预测miRNA的靶基因对研究miRNA的功能和作用机制至关重要。目前发现了大量的miRNA,但与之相互作用的靶基因数量很少。植物的miRNA通过完美的碱基互补方式结合到mRNA上,靶基因很容易被预测。动物的miRNA与靶基因只需要部分碱基配对,是靶基因预测的难点。由于miRNA和靶基因作用机制不太清楚,根据传统交互规则设计的算法效果不太理想。本文通过对miRNA和mRNA交互的可趋近性进行研究,提出一种新的预测算法。首先,针对miRNA以具体序列方式靶向mRNA的特性,以概率思想建模,提出基于二阶马尔科夫链模型的可趋近性靶基因预测算法Atar。该算法允许miRNA种子区中存在且至多存在一个G:U碱基配对。以非重叠的计数方式统计与miRNA种子区互补的特定核苷酸片段(寡聚体)在可趋近3’UTR序列上偶然出现的次数,并以出现一定次数寡聚体概率值的大小排序相应miRNA-3’UTR对,取前N个排序结果作为预测结果。其次,针对高阶马尔科夫链模型存储量大和维数多的缺点,提出可变长马尔科夫链模型预测可趋近交互位点算法。该算法通过比对miRNA和可趋近性mRNA位点形成的二聚体序列获得一条新序列。新序列中用不同字符代表不同碱基配对类型,以可变长马尔科夫链模型模拟新序列,并在概率后缀树加入平滑化技术改进模型。通过比较正、负分类上新序列概率的大小判断新序列所属类别。进而获得miRNA和mRNA可趋近位点的交互信息。最后,利用miRbase中实验验证的真实靶基因数据。在通用评价标准下,评估本文算法和其他预测算法的实验结果,从而验证本文算法的优越性。