蛋白质批量同源性搜索及DNA模体识别算法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:john0620
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物信息领域中,批量蛋白质同源性搜索和模体识别是当今的两个研究热点。本文针对批量蛋白质同源性搜索问题和模体识别问题,提出了基于聚类和压缩的批量蛋白质同源性搜索算法与基于随机投影和粒子群优化的模体识别算法。通过一组蛋白质查询序列集对大规模蛋白质数据库进行同源性搜索是现代生物信息学的基本任务。过去几年里,由于高速发展的测序技术导致海量的蛋白质序列数据产生,因此,如何在大规模数据库中高效地进行批量同源性搜索已成为一个广泛关注的问题。针对这个问题,基本方法主要是对查询集中的每条序列运行BLASTP,或通过将查询集中的序列组成串联的虚拟序列之后再进行查询。然而这些方法没有考虑查询序列间或搜索数据库序列间存在的冗余性,同源性搜索的效率仍可进一步提高。基于此,本文提出了一种基于压缩和聚类的批量快速同源性搜索算法C2-BLASTP (Compression and Cluster BLASTP),本算法充分利用了数据库序列和查询序列中的冗余信息。首先,对查询序列和蛋白质数据库通过冗余分析和冗余移除过程进行压缩操作;进而对压缩后的数据库进行相似子序列聚类;然后在聚类数据库上利用映射原理进行一个粗略的查找以发现潜在结果,根据找到的潜在结果集建立可执行数据库;最后用压缩处理后的查询序列集在创建好的可执行数据库上进行同源性搜索。本文在NCBI NR数据库上进行了实验验证,并从精度、速度和内存消耗三方面验证了本算法的有效性。在基因表达和基因调控中,通过转录过程可以实现将DNA的遗传信息传递给蛋白质。转录过程中转录因子结合位点的识别可以帮助生物学研究人员了解序列之间的进化关系。识别转录因子结合位点的问题,即模体识别问题对了解序列的生物意义具有重大意义。粒子群算法中通过整合局部最优解和全局最优解来处理该问题,但存在当序列集中存在较多噪音子序列时易陷入局部最优解的问题。针对这个问题,本文提出了PSORPS (Particle Swarm Optimization Random Projection Strategy)算法。首先利用随机投影的策略过滤部分噪音序列子片段;其次,在过滤部分噪音序列子片段过程中,PSORPS可以得到分布在尽量多序列的序列片段,并将其用作粒子群群体的初始化;最后,利用重匹配和联合移动操作优化PSO求出的结果以克服碱基偏移的问题。本文在真实的生物数据集上构建实验,验证了PSORPS的有效性。
其他文献
近年来,随着移动设备计算能力增强,无线通信技术,无线定位技术以及微型传感器普及,如何为移动用户提供最适合的个性化的信息服务(已经成为新兴的研究热点。传统的信息服务是
分类是机器学习的重要任务之一,传统的分类方法有一个默认的假设,就是数据集中各类别所包含的样本是均衡的,故传统的分类方法都是以提高数据集的总体准确率为目标的。但是在
随着城市化进程的加快,许多城市开始修建地铁。地铁中需要配置监控系统,用来监控地铁的运行环境。由于监控系统集成越来越多的子系统,其依赖的网络规模逐渐增大,网络管理也逐
在计算机领域中,软件的发展相对滞后于硬件的更新是一个长期存在的问题。而当人们迈入多处理器、多核心时代时,该问题变得更加严峻。特别是在多核的模拟器方面,虽然各大厂家
本研究课题来源于国家自然科学基金资助项目“典型事件过程建模的研究”。事件时序关系的研究目的是建立事件之间在时间上的先后顺序关系,事件时序关系的研究在文本分类、问
随着计算机和网络Internet的迅猛发展,从海量的信息资源中精确地获取信息变得越来越困难。海量信息中有很大一部分是以短文本的形式存在,同时短文本也是人们在日常生活中所必
近年来网页恶意代码由于其隐蔽性和危害性,逐渐成为网络安全热点。传统的恶意代码检测技术主要有特征码检测法、启发式检测法等,这些技术对于检测已出现的病毒非常有效,但是
随着互联网技术的迅速发展,web信息爆炸性地增长,互联网已成为海量信息空间,搜索引擎解决了海量互联网资源的快速定位和检索问题,在网络时代发挥了巨大作用,成为人们在信息时代不
随着计算机技术和光电技术的发展,出现了一种新的检测技术--基于计算机视觉的测量技术,该技术是一种利用CCD摄像机作为图像传感器,综合运用图像处理技术进行非接触测量的方法,具
名词短语在句子中常常担任主语、宾语或定语等重要句法成分,其识别是自然语言处理领域的基础任务。汉语简单名词短语作为一种特殊类型的名词短语,兼具结构简单性和语义准确性