基于序列信息的转录终止子及复制起点的预测研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:michael8363
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类的繁衍主要通过基因的复制和转录来进行,其中转录终止子序列和复制起点序列是管控其进程中不可或缺的一部分。解决相关的序列预测问题,不仅可以优化基因组注释,还可以帮助治疗相关的基因型疾病,但是传统的生物学实验耗时久且准确率不稳定。因此本文基于生物序列的信息特征并结合机器学习分类模型对不同物种的DNA转录终止子序列以及复制起始位点序列展开了研究,主要的研究内容如下:(1)终止子序列可以管控DNA转录的终止,它在基因型疾病诊断和治疗中具有相当大的应用价值,到目前为止准确的预测方法是非常缺乏且迫切需要的。在这项研究中,共收集了大肠杆菌以及枯草芽孢杆菌的数据并尝试了五种特征提取方法(一型伪核苷酸组分方法、二型伪核苷酸组分方法、K-pwm、Base-content、Nucleotidepro)。之后,采用了two-step来筛选有效特征。在基于最优特征集训练时,比较了五个单一模型和四种多分类器融合模型。最终,本文提出了一种针对于大肠杆菌和枯草芽孢杆菌的终止子预测方法“iterb-PPse”,它将47个核苷酸性质整合到两种伪核苷酸组分方法中,并利用极端梯度提升法对终止子序列进行预测。结果表明,经过100次五折交叉验证,该方法在训练集上的预测准确率达到99.88%。(2)复制起点代表DNA开始复制时的起始位点,它是亲子间的信息遗传中极为关键的一部分。更重要的是准确地识别复制的起始位点在遗传信息错误等疾病的诊断和治疗中有巨大的应用价值。因此本文利用机器学习对多种真核生物的复制起始位点识别展开了研究,并针对每一个物种提出了独特的预测方法。在这项研究中收集了7个物种的数据,包括人类、毕赤酵母、小鼠、裂殖酵母、果蝇、乳酸克鲁维酵母、拟南芥,并尝试使用了三类特征提取方法(TF-IDF、二型伪核苷酸组分方法、Base-content)提取序列信息,然后使用two-step进行了特征选择。在比较了多种传统的机器学习分类模型之后,最终基于多层感知机为每一个物种设计了最优的分类方法。经过100次五折交叉验证的结果表明,本文设计的方法对上述7个物种的训练集的预测精度分别达到92.60%、90.86%、91.22%、96.15%、94.20%、99.86%。
其他文献
图节点分类在社交网络、电子商务和疾病预测等领域有着广泛的应用。图结构的复杂性给现有分类算法的应用带来了挑战,因此探索高效的分类算法具有重要的现实意义。本文主要基于图卷积神经网络和超图神经网络对节点的半监督分类方法进行研究。在图卷积神经网络的节点分类方法中,初始的图结构往往存在噪声,直接将其送入网络模型中训练,模型的分类准确率会受到影响。因此本文首先在已有的图神经网络架构上改进,设计一种融合图结构和
智能合约作为以太坊区块链的可编程模块继承了区块链的技术特征——数据的存储和计算方式拥有不可更改的特性。它适用于存在互不信任的应用场景。现有的区块链应用研究一般分为两点:(1)针对区块链去中心化和防篡改的特性将其应用在新的应用场景中。(2)针对区块链技术的限制,扩展区块链的功能。本文主要基于以太坊智能合约技术,做出了以下两点研究。(1)针对在互联网环境下社区代币有中心化、不公开、平台掌控者可以任意修
差分故障攻击作为一种经典的侧信道攻击,其攻击原理主要是依赖于在加密设备执行期间恶意注入故障,然后通过分析故障输出和非故障输出之间的差异来推出相关的密钥信息。具有故障注入灵活、分析效率高、攻击复杂度低等优点,对加密算法的工程应用构成了严重威胁。因此,差分故障攻击以及如何抵御差分故障攻击是目前学术界的研究热点之一。本文主要基于故障注入、感染计算以及故障检测等基础思想,对轻量级密码算法ANU和Pyjam
全球卫星导航系统的导航与位置服务给人们带来了前所未有的良好体验,但是由于导航信号传达地面需要经历漫长的过程,其次导航信号的公开性以及其缺乏防护措施让导航信号变的十分脆弱,极易被恶意用户欺骗干扰,而这类干扰不同于容易被检测出来的压制式干扰,不仅隐蔽性极高,而且危害性极大,难以被一般的仪器和算法检测出来。针对上述问题提出了一种基于BP神经网络的有监督的机器学习对欺骗导航信号和真实导航信号进行二分类的欺
单光子探测技术在需要高灵敏度的弱光传感应用,例如3D激光雷达成像技术,量子密钥分发,光感测距技术和医用成像技术等领域拥有广泛的应用前景。在这些应用中最基础核心的器件则是单光子雪崩探测器(Single Photon Avalanche Detector,SPAD),由于在进行单光子探测时可获得的光信号非常微弱,所以要实现检测微弱的光子信号就必须有相应的信号放大处理并同时保持极低的噪声。单光子雪崩二极
地面作业相比以前已经有很多的岗位被机器人替代,未来的空中作业也可能如同地面作业一样逐渐的被空中机器人替代。带有机械臂的四旋翼无人机在未来的空中作业会扮演一个非常重要的角色,可以进行空中抓取、空中维修等作业。由于四旋翼无人机是无固定支撑点的机器人,机械臂的空中作业会对四旋翼无人机带来很大的干扰,影响四旋翼无人机的飞行稳定性、可靠性,进而影响到了机械臂的空中作业。所以,提高四旋翼无人机的抗干扰能力就有
由于社会数字化进程的推进,促进了工业互联网技术和5G技术的蓬勃发展,导致数字信息的传输量和共享量急剧增长,数字图像在传输过程中受到一些组织或个人的攻击,可能会造成灾难性的后果。因此,保护图像信息安全传输是一项重要的工作。混沌映射被广泛应用于图像加密,它具有的初值极端敏感性和伪随机性等特性与加密思想要求一致。然而,现有的混沌加密算法也存在混沌特性不足、易于攻破等问题,为了有效提升图像加密性能,本文从
随着我国综合国力的不断提升,英语在我们的生活里扮演了越来越重要的角色,而写作能力是英语能力的一项重要指标。互联网的蓬勃发展,使得信息的传播成本接近于零,人们可以随意的发送或者接受信息。然而,互联网野蛮生长的背后,使得抄袭成为一件越来越唾手可得的事情,可以随意的将他人的作品占为己有,抄袭就这样产生了。抄袭的普遍性与其带来的社会危害性,使得对抄袭检测的研究变得越来越迫切。一般来说,我们将抄袭检测领域的
随着信息技术的不断发展,出现了诸如超高清视频、大规模物联网、无人驾驶和云计算等新兴应用领域。这些新兴的应用场景由于需要更大的数据带宽,更高的传输速率,更低的时延以及更高的系统可靠性,所以对未来的通信系统提出了新的挑战。信道编码作为一种前向纠错技术,是确保通信系统可靠性的关键技术之一,而多元LDPC码作为一种具有逼近香农理论极限性能的信道编码方案,逐渐成为未来最具竞争力的信道编码方案之一,但其编译码
随着小型无人机功能越来越强大,“黑飞”“滥飞”现象层出不穷,因此无人机监管问题成为重中之重,而无人机目标检测就成了首要任务。雷达探测技术仍然是目前应用最广泛的方法,基于主动雷达的探测方式,设备成本较高,电磁污染严重,对于检测无人机等“低慢小”目标还有很多不足。为此本文提出了基于外辐射源雷达的小型无人机检测方法,重点研究了循环谱和深度学习网络来检测回波信号中无人机微动特征的性能。为了有效检测无人机目