【摘 要】
:
如今越来越多的行业进入数据驱动的时代,生物学同样如此。在过去的十几年间,生物序列数据实现了巨幅的增长,进而促进了生物学中多个领域的蓬勃发展。在这些领域的发展中,许多
论文部分内容阅读
如今越来越多的行业进入数据驱动的时代,生物学同样如此。在过去的十几年间,生物序列数据实现了巨幅的增长,进而促进了生物学中多个领域的蓬勃发展。在这些领域的发展中,许多生物学问题如增强子识别,蛋白质远同源性检测,启动子识别等有待研究者们深入地进行探索研究。因此,通过从海量的生物序列中挖掘生物基因的隐含特征,进而研究生物基因的结构以及功能,是一个绝佳的探索途径。传统对增强子和启动子的识别使用的是生物实验等方法,这些方法耗时耗力,在庞大的生物序列条件下,无法满足研究的需要。因此,本文通过研究增强子和启动子的序列信息,使用特征向量提取方法挖掘序列信息,并结合机器学习算法构建模型进行研究分析。本文主要内容包括:本文基于序列信息以及集成学习策略提出了识别增强子及其强度的方法iEnhancer-EL。其中通过使用不同的特征提取方法提取特征向量,然后通过支持向量机算法构建模型。之后对模型进行聚类,并从中选择关键模型,最后使用线性加权集成的方法进行集成操作构建集成模型。得到最终模型之后,通过使用多项测量指标,对比该方法和其他方法之间的性能,方法iEnhancer-EL对增强子及其类型的识别性能优于目前最优预测方法。本文提出了基于平滑策略的启动子及其类型识别方法iPromoter-Kmer和iPromoter-PseKNC。这两种方法利用了基准数据集中的序列之间保守性值的差异性,将DNA序列划分为几个子序列,然后分别在每个子序列上提取特征向量并线性合并。其中使用了两种特征提取方法,Kmer方法和伪k元核苷酸组成方法。通过调整每一个特征提取方法的超参数,得到不同的特征向量,然后结合支持向量机算法构建模型,最终选择出预测性能最优的模型。这两种方法的预测性能均优于现有预测方法。对于启动子及其类型的识别,本文进一步提出基于集成学习的启动子及其类型识别方法iPromoter-2L2.0。本方法在基于平滑策略划分得到的子序列上,使用滑动窗口进一步挖掘序列的局部信息,然后使用Kmer方法和伪k元核苷酸组成方法结合支持向量机构建多个模型。然后使用改进的度量规则将模型聚类,最后选择关键模型用于集成学习。iPromoter-2L2.0方法对于启动子及其类型的识别,实现了比iPromoter-Kmer和iPromoter-PseKNC更好的预测性能。
其他文献
本文利用通用气候系统模式第三版本(The Community Climate System Model version 3,简称CCSM3)模拟的过去21000年的气候模拟结果TraCE-21ka(Transient Climate Evolution of the last 21000 years,简称 TraCE-21ka)进行 了全新世千年尺度温度变化的研究。在验证模拟资料模拟性能的基础上,
煤矿开采造成的土地利用变化对生态环境造成巨大的扰动,为探究采矿进程及采空区对当地生态的影响边界,需要对煤炭基地及周边区域进行植被覆盖变化检测。植被覆盖及其动态变化在较高的空间及时间尺度上的实时更新有助于矿区生态连续性变化检测,从而及时对变化进行分析并作出有利于当地生态的反馈。宁东煤炭基地是典型的西北干旱荒漠区脆弱生态系统,其对于开采煤矿带来的扰动尤为敏感。通过高时空连续性变化检测,不仅有助于发现植
本论文以金属纳米团簇、碳点作为荧光探针构建传感器,结合荧光光谱法和化学计量学,利用传感和细胞成像技术对实际样品中某些物质(核黄素、柠檬黄和铜离子)进行定量分析检测。文中所提的纳米材料绿色环保、合成简单快速,并对检测物具有高的灵敏度和选择性。本论文的主要工作内容如下:第一章:介绍纳米材料,并系统地阐述金属纳米团簇、碳点的研究背景,物理化学性质,常见的制备方法及其在分析检测中的应用研究;简单的描述了几
目的探讨术前心率对急性Standford B型主动脉夹层(aortic dissection,AD)患者围术期发生主动脉相关不良事件(aortic-related adverse event,ARAE)的影响。方法回顾性分析我院
目的:研究胃癌患者手术前后外周血T淋巴细胞(CD3+、CD4+、CD8+、CD4+/CD8+)及免疫球蛋白(Ig A、Ig G、Ig M)水平的变化,以及术后应用ω-3多不饱和脂肪酸(ω-3 PUFAs)对其水平的影响
目的通过meta分析方法汇总近年来炎性基因多态性与胃癌的关联研究,合并效应量分析筛选出与胃癌相关的炎性基因多态性位点,使用通过实验验证后的多态性位点,建立结合炎性基因
相对于轨道尺度上的气候波动,短尺度气候系统内部振荡规律直接涉及当前人类社会生存与发展中的重大环境问题,其内部驱动与太阳辐射间的耦合机制成为当前古气候学界研究的热点。基于有限的古气候载体,MIS11阶段的千年尺度事件研究相对较少,本文利用亚洲典型季风区湖北省落水洞一支石笋(编号:LS33)15个U/Th年代和721组δ18O、δ13C数据及微量元素记录,重建MIS11阶段(435.99~365.12
研究背景脑性瘫痪(Cerebral Palsy,CP),简称脑瘫,是一种出生前后1个月内由各种危险因素引起的非进行性、永久性神经发育障碍综合征,是儿童致残的主要原因。每1000名新生儿中
脉冲星的消零是一段时间内脉冲信号消失的现象。消零态可以被看作是脉冲星模式变换的一种极端形式,可能是辐射完全消失,也可能是辐射降低到极弱。对弱信号的观测依赖于望远镜的灵敏度,低于望远镜探测阈值的信号是观测不到的,但可以通过对信号的叠加来提高信号的信噪比。人们已经尝试对极少数脉冲星消零时段的信号窗口进行了长时间的叠加,发现个别脉冲星,如PSR B0826-34,其长时间消零时段的积分得到了 一个极弱的
石墨烯由于优异的电子学、光学和热学等性能,因而一直以来都是研究的热点。垂直石墨烯作为石墨烯的一种特殊结构,具有巨大的表面积与体积比,锋利的边缘,良好的导电等性能。因此垂直石墨烯结构是下一代电子发射、传感器、能量存储和生物等领域的最佳候选者之一。但是目前对于垂直石墨烯的研究存在生长速率缓慢、生长机理尚不明确等问题,而近年来开发的中压等离子体技术能够快速高效的合成薄膜,因此可能在快速制备垂直石墨烯薄膜