转录调控序列数据挖掘研究与实现

来源 :复旦大学 | 被引量 : 0次 | 上传用户:gjj19901005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在功能基因组学中,理解高等生物的调控机制是当前研究面临的重要挑战。转录因子是一种特殊蛋白质,通过与基因上游的顺式调控元件结合,最终调控了基因的表达。因此,识别转录因子以及顺式调控元件,是理解基因表达的先决条件。传统的采用实验生物学手段来识别转录调控序列(主要有转录因子、顺式调控元件)的方法代价较高,因此,研究者开始采用计算生物学手段预测转录调控序列,然后针对预测结果再进行生物学实验,以提高识别的效率。然而现有的方法存在一些问题,针对这些问题提出新的方法以改进预测效果是当前研究的热点。本文分析了当前转录调控序列预测算法的现状,针对现有算法的不足,研究转录调控序列的生物学特点,结合转录调控领域知识,提出了新的转录因子及顺式调控元件的数据挖掘算法,设计并实现了转录调控序列数据挖掘系统TBMiner。主要研究成果如下:1.提出了一个基于支持向量机的转录因子数据挖掘算法,该算法将蛋白质功能域作为向量来表示转录因子,利用支持向量机对由转录因子和非转录因子样本构成的正负样本集进行训练得到分类模型,该模型用来预测蛋白序列是否为转录因子并判断其所属类别,改善了当前算法存在的推广能力不足的问题。2.提出了一个采用多项式核函数的半监督支持向量机顺式调控元件预测算法。传统的顺式调控元件预测方法只考虑单碱基的频率,而实际上顺式调控元件的碱基间往往存在着复杂的联系。本文利用多项式核函数获取顺式调控元件上碱基间的依赖关系,从而更好的学习到顺式调控元件的特征,这些特征显著地改善了顺式调控元件的预测效果。同时核函数避免了显式的空间变换,大大提高了计算效率。3.设计和实现了转录调控序列数据挖掘系统TBMiner。TBMiner系统整合了当前常用的生物序列模式发现算法MEME和AlignACE,并实现了上述的转录因子及顺式调控元件的预测算法。用户可以调整不同的参数以获得最佳的效果,为生物学家进行转录调控规律研究提供了良好的生物信息学工具。
其他文献
在互联网高速发展的今天,每个人的生活都在发生巨大的变化,世界正在不断地变“平”。随着电子商务,人工智能,虚拟现实等技术的蓬勃发展,人们只要通过互联网,几乎可以足不出户,坐在计
数据集的检索通常使用倒排索引模型进行检索,可以在海量的文本数据获取信息。基于数据集构建倒排索引文件通常十分庞大,压缩倒排索引可以减少空间使用,在相同的内存中驻留更
随着互联网的迅速普及和不断发展,P2P应用已逐渐成为网络的主流。越来越多的用户使用P2P来下载大量的文件,特别是那些视频和音频文件。有关调查表明,P2P业务已悄然占据了互联
轮廓编组计算模型以边缘片段为编组元,以获取具有明确视觉意义的目标轮廓为主要任务,是一种非常重要且极具研究价值的知觉组织计算模型。以此为基础研究图像序列中显著运动目
集群计算技术近年来已成为计算机界研究的一个热点。采用集群技术来解决大数据量或时间复杂度高的问题不仅在计算机界,而且在其它科学领域都是首选的。负载平衡是集群系统中
本文阐述了呼叫中心的定义、其产生和发展的历史以及呼叫中心系统的基本结构,同时介绍了Web Service的定义、重要技术以及与呼叫中心的关系、常用MVC呼叫中心的基本结构及其
地质图件是研究人员的重要参考资料,许多研究成果都是以图形形式表现出来。提高绘制地质图件的准确性、重复利用率等尤为重要。矢量化是最终替代手工清绘图纸的技术手段。经
在大数据时代背景下,云计算得到了广泛的关注和应用。随着云计算不断的发展,同时受到完工时间和成本等因素约束的科学计算流程和商业流程等应用流程日趋复杂。以往的云计算应
当前,大数据时代中的数据信息呈爆炸式的增长,传统的技术架构已经不能满足处理海量数据的需求。Apache基金研发的Hadoop平台迅速被应用到各个领域中,成为了许多企业的首选。H
操作系统技术历来就是计算机系统的核心技术,不管是在大型的服务器系统,还是在家用PC机系统,都可以看出操作系统在计算机领域的地位。最近几年,在大型计算机系统进入相对成熟阶段