用于预测剪切位点的一种改进字符串核函数研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lcj_111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着基因测序技术的进步,基因组序列的信息量呈现爆炸增长的趋势。人们迫切需要对这些信息进行分析处理的工具,而要对基因序列进行分析首先需要识别出DNA编码区也就是最终表达为蛋白质的DNA片段,这一步骤称为基因识别或基因预测。基因预测的难点是真核生物的基因识别算法,与原核生物相比,真核生物的一个主要不同是只有外显子部分才会最终编码成蛋白质。外显子与内含子的边界称为剪切位点,因此剪切位点的预测成为了基因识别的一个关键问题。这一问题可以转换成碱基序列文本的二分类问题。目前,支持向量机模型以及核函数方法在剪切位点识别算法的研究中受到了广泛的关注。在生物信息学问题中常用的核函数有两种,一种方法是基于特征空间的核函数,另一种是直接根据序列信息计算序列的相似性,也就是字符串核函数。目前字符串核函数在识别剪切位点问题上的性能已经达到了研究的前沿水平。在已经提出的用于剪切位点预测的字符串核函数中,Weighted Degree(WD)核是其中性能最好的一种。本文在分析WD核函数有效性的基础上,提出了WD核函数的准确率与碱基保守性的分布位置有关的假设以及验证该假设的实验方案。本文定义三个变量描述在某一位置上组成DNA的四种核苷酸碱基A、G、C和T分别在正例数据和反例数据上的分布以及其分布的差异,使用这三个变量定义关键因子的概念,用于表示该位置上的碱基对于区分正例和反例的重要程度。并使用这个概念在公共数据集上进行实验从而选出了可能会在分类时有重要作用的“关键位置”。通过在计算核函数时分别去除或保留这些位置上的碱基信息,证明了碱基所在位置这一信息对WD核函数预测剪切位点性能有着重要影响并且某一位置对应的关键因子可以用于描述该位置上的碱基在分类时的重要程度。在证明了WD核函数的性能与碱基所在位置有关后,本文对碱基位置的重要性进行扩展,即可能存在会对WD核函数性能造成不良影响的“迷惑位置”,并提出了迷惑因子的概念用于找出这种位置。基于找到的关键位置和迷惑位置,对每个位置分别按其对WD核函数的影响程度的不同赋予相应权值,并在计算核函数时使用。本文将这种基于位置重要性赋予权值的改进WD核函数方法称为Adaptive WD核函数,实验证明,在两个剪切位点公共数据集上,Adaptive WD核函数均能取得优于WD核函数的性能。随后为得到更好的分类效果,本文提出使用以Adaptive WD核为核函数的支持向量机分类器作为基分类器,分别应用Bagging和Adaboost两种集成学习方法提升预测效果。实验结果表明使用两种集成学习方法后,分类器的性能均能提升2%左右,证明了使用集成学习方法有着良好的提升效果。
其他文献
趋磁细菌(Magnetotactic bacteria,MTB)是一类能够在胞内合成由生物膜包被的磁性纳米颗粒(磁小体),并借助鞭毛沿磁力线方向运动的细菌。趋磁细菌具有形态多样性,主要有球形、
宝力高庙组在区域上划分为两段,下段为正常碎屑岩段,上段为火山岩段,本文对研究区内宝力高庙组火山岩岩相学、地球化学及同位素测年进行研究,将该套火山岩细分为三个段,其中
烟草翻译起始因子家族成员eIF4E-6(Ntab0942120)与马铃薯Y病毒VPg互作决定着PVY对烟草的侵染进程,为打断PVY对烟草细胞的侵染途径,增强烟株自身对PVY的抗性,本研究应用TALENs
在大规模密集的WLAN部署环境下,用户在统一管控下的不同接入点(AP)之间的切换越来越频繁,然而传统切换机制会带来较长的时延,因此,如何保障在切换时的用户体验是一个严峻的挑
为了明确准噶尔盆地玛南斜坡风城组优质储层的地震响应特征,对云质岩、火山岩等优质储层进行准确识别。本文在前人研究成果的基础上,首先对目的层段进行精细构造解释;其次,利
吉林省桦甸市鹿角沟金矿床位于桦甸市红石砬子镇高兴屯东。近几年来通过大量的地质、物探和化探工作,已在研究区内发现了小型金矿床多处,具有良好的找矿前景。研究区位于华北
在多媒体、图像处理、模式识别等可容错的应用中,即使计算过程不完全精确也能产生有用的结果,此时容错应用中的精确计算电路就会造成系统硬件资源的浪费。非精确计算的思想是
尖状栅藻(Scenedesmus acuminatus)是一株生长快,油脂累积量高,具有可开发生产生物柴油的单细胞绿藻。本论文以产油尖状栅藻为实验材料,以改良BG-11(1.0S)为对照,设置0.25S、0.5S
伴随勘探开发程度的提高和技术的进步,复杂断块油藏也逐渐成为勘探开发的对象。储层作为油气勘探开发的直接目的层,准确地预测储层的性质和变化规律对于提高钻井成功率、降低
本文设计并合成出三个N-苯基咔唑-均苯三甲酰胺衍生物,并研究了它们的超分子自组装及空穴传输性能。以对乙酰氨基苯酚和卤代烷为起始原料,经过优化设计的反应路线成功合成出具有不同烷氧基链的N-苯基咔唑-均苯三甲酰胺目标分子7-C1、7-C6和7-C12。通过1H NMR、13C NMR和质谱,对目标分子以及重要中间产物的结构进行鉴定。通过紫外-可见吸收光谱、荧光发射光谱、浓度梯度核磁共振氢谱及偏光显微镜