基于后缀树聚类和期望最大化求精的模体发现算法

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:ppcppc825406
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
模体发现问题,即寻找转录因子结合位点(TFBS),是生物信息学上研究的热门问题之一。由于模体蕴含着丰富的生命遗传特征信息,所以探究基因序列上的模体实例,对基因表达和调控具有重要意义。而生物序列的复杂性和基因变异的存在导致了模体在空间分布和特征上差异较大,也使问题变得非常复杂。为了解决模体发现中子序列数庞大和模体实例难以定位的问题,本文结合后缀树聚类和期望最大化求精提出了一种新的模体发现算法。主要分为两个阶段,第一阶段采用基于后缀树的k前缀字符串进行相似性度量,设计子类划分算法完成聚类过程,大大减小了问题规模,也保证了子类中序列的相似性。第二阶段以具有高信息量的子集作为起始点,对OOPS、ZOOPS、TCM三种不同类型,应用基于混合统计模型的期望最大化算法(EM)完成求精过程,以似然率和相对熵作为测度进行极大似然估计来确定模体和位点集。通过对多种类型的真实生物数据进行实验表明,聚类过程能明显的减少l-mer集的数量,得到更为保守的子序列集。求精过程通过前一阶段的起始点可以迭代收敛到最优结果。通过聚类和求精过程,算法能够有效的识别出转录因子结合位点。
其他文献
模糊性是客观世界中某些事物本身所具有的一种不确定性,它与随机性有着本质的区别。有明确定义但不一定出现的事件中包含的不确定性称为随机性,它不因人的主观意识变化,由事物本
数字电视目前在国内的展开,这个趋势必将带动国内整个广电产业的巨大变革,而数字电视运营支撑系统(Operations Support Systems,以下简称OSS)是这个产业中的重要一环,而数字电视O
随着计算机网络的广泛应用,网络安全问题已经越来越受到人们的重视。入侵检测是信息安全保护体系结构中的一个重要组成部分,确保计算机网络资源的安全性。入侵检测的关键问题
每个人的指纹在图案、断点和交叉点上都各不相同,且一般人的指纹在出生后9个月得以成型并终身不变。正是因为指纹的唯一性和终身不变性,指纹识别技术才得以迅速的发展和广泛的
随着计算机网络的广泛应用和发展,很多有价值的数据已经不能被传统的搜索技术检索出来,这些数据称为Deep Web。为了有效的访问Deep Web中的数据资源,人们提出了语义Web的概念。
随着信息时代的到来和网络技术的发展,协同设计成为一种必然的趋势,如何快速、高效地共享设计信息成为亟待解决的问题。自1984年计算机支持的协同工作这一概念诞生至今,十几
呼叫中心(Call Center)是CTI技术(Computer Telecommunication Integration)的一个典型应用。其集语音技术、计算机网络和数据库技术于一体,通过电话系统,连接到某个信息数据
CORBA系统中通常的对象传递方式是传递对象引用,通过传递对象引用,避免了传递复杂对象的系统开销和通信开销,实现了客户端与服务端实现的分离。随着分布应用的发展,为了满足
在数据库系统和计算机视觉两大研究领域的共同推动下,图像检索技术已逐渐成为一个非常活跃的研究领域。基于内容的图像检索不同于传统的基于文’本的图像检索,它实际上是一种模
数字信号处理器是一种新型的结构特殊的单片微计算机,特别适用于数字滤波、高保真的视频、图象和语音处理中,并以其强大的处理能力和高度的灵活性迎合了信号处理任务对实时性