基于变值测量与组合熵的病毒序列可视化研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:sjzafei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从1976年开始出现的“埃博拉”病毒,到2003年流行的“非典”病毒,再到2019年大范围传播的新型冠状病毒,全球由于感染传染病病毒导致的死亡率持续增加,严重危害着人类的健康,病毒基因序列的研究成为生物信息学领域研究的热点。基因序列是由四种碱基组成的功能序列,存储着生物的遗传信息,在生物的起源和进化中有着至关重要的作用。病毒在传播的过程中会发生基因突变,致使某些碱基发生变化,从而给病毒基因序列的研究带来困难,如何提取病毒基因序列的特征就非常有必要了。本文提出在变值测量理论基础上结合组合熵的方法对新型冠状病毒基因序列做可视化的相似性研究。可视化方法是生物信息学领域中使用广泛的一种方法,其通过对原始数据进行处理映射,使用直观的图像向人们展示数据的特征,可以更易于理解。变值测量方法是利用四基元变值测度处理基因序列,提取统计测量特征,将其与可视化方法结合投影到特征空间上,形成变值图示。信息熵可用于解决对信息的量化度量问题,在本文中代表病毒不同基因序列的复杂性,而组合熵是将病毒基因序列中的四种碱基利用四基元变值测度计算得出的信息熵任意组合得到,把组合熵中的结果投影生成可视化图示。本文方法首先通过变值测量对多条基因序列的四种碱基进行变值处理得到四基元测度,将全基因序列进行分段,计算多条序列对应分段上的碱基差值,投影得到基因序列差异图示,可观察多条比对序列的变异情况。然后统计各序列的碱基概率,计算得到相应的信息熵,任取两组碱基的信息熵得到组合熵投影到二维坐标系中得到群聚图示,可以观察多条序列的聚类情况。最后根据组合熵形成的复合测度计算各序列之间的距离得到距离矩阵,从而生成系统发育树用于观察序列间的进化关系,准确表达基因序列间的相似性。本文基于变值测量与组合熵的方法,提供了新的角度研究病毒基因序列,与经典生物信息学方法相比,本文方法的运算复杂度更低,效率更高,通过可视化图示,实验结果能够更好的呈现出病毒基因序列的特征和分布规律。
其他文献
协同业务过程是一种分布式流程,描述了多个组织间工作和交互以执行特定业务功能的过程。目前已经被应用到多个行业或领域来优化传统流程结构,提高协作效率,包括医疗、电子商务、应急救援等。与传统业务过程模型相比,协同业务过程的建模和分析工作更具挑战性,主要有以下三方面原因:第一,协同业务过程涉及多个组织的通信、交互和协作;第二,每个组织不仅需要完成自身的工作流执行,同时需要参与协作来完成共同的业务目标;第三
学位
复杂网络由网络中众多节点相连而成,看似复杂的网络往往具有一定的社区结构。对于社区结构的研究主要是根据网络的结构和节点属性等信息挖掘出网络中的社区。由于真实世界中网络的节点数量较大,人们难以获取网络的全部信息,无法从全局信息中挖掘隐藏的网络社区结构。所以,更多采用的方法是从局部信息入手,这与获取网络中的全局信息相比,更容易获取网络中所需的信息。通过网络中的局部信息进行节点扩展从而发现网络中的社区结构
学位
由于神经网络的出色性能和优异的表现,其已经被应用到许多领域,例如金融,医疗辅助诊断等。但是对抗样本的提出,暴露了深度学习模型的脆弱性,如果要实现深度学习模型在生产生活中的关键应用,就必须解决深度学习模型的安全性问题。目前针对对抗样本的防御,主要分为两大类,一类是对抗样本的检测,另一类是通过对抗训练来提高模型的鲁棒性。对抗样本的检测主要是对模型的输入进行检测,检测出输入数据中的对抗样本。虽然对抗样本
学位
交通预测任务基于交通大数据,由于交通受到道路类型、交通状况、天气状况等外因,交通大数据具有很强的不确定性,因此交通预测是一项较为有挑战性的研究。它需要动态的捕获道路之间的空间依赖以及路口的历史信息依赖。为了进一步建设智慧交通系统,近年来,越来越多的研究人员开始关注于交通预测。交通预测任务属于时空大数据挖掘问题,现有的方法对时空大数据的挖掘尚未充分。为了更加深层次的挖掘时空大数据之间的隐藏关联关系,
学位
<正>4月3日,中共山西省注册会计师注册资产评估师行业党委和山西省会计服务中心党总支50多名党员冒雨在太原市牛驼寨烈士陵园开展了“缅怀革命先烈,继承优良传统”清明祭扫党建活动,旨在弘扬爱国主义精神,传承红色基因,重温峥嵘岁月,凝聚积极向上的正能量。大家表示,太原解放战役是太原地方党史上的一个标志性事件,代表着我们党走过的光辉历程,形成了一批承载着情怀和担当、牺牲和奉献的红色资源。我们要坚定理想信念
期刊
报纸
报纸
当下,复杂网络领域受到越来越多研究人员的广泛关注。其中链路预测是复杂网络研究中的一个热门的分支,常常被用来作为预测缺失链路和识别虚假链路的有效手段。同时,链路预测在不同行业中也有着广泛的应用。由此,本文提出了基于聚类系数和节点中心性的链路预测算法,并对科研合作网络中科研人员未来的合作关系预测进行研究和应用。本文主要研究和工作如下:(1)提出了基于聚类系数和节点中心性的链路预测算法(CCNC算法)。
学位
复杂网络技术早已渗入了人类生活之中,节点重要性是复杂网络的主要研究对象之一。但是,本文关注一个相关但略有不同的问题——识别复杂网络中节点相对于一组已知重要节点的重要性,即相对重要节点识别方法的研究。此类问题在现实中广泛应用,比如,根据已被逮捕的罪犯寻找其他罪犯;在交通网络中,通过已拥堵的路段,优先找出易拥堵的路段进行交通管制。本文对复杂网络中相对重要节点的识别工作进行研究,分别从网络拓扑结构和随机
学位
长期以来,癌病在全球内严重危害人体健康,其发生率和致死率一直居高不下。在实际临床治疗中,组织病理学检验始终是治疗肿瘤最直接、准确的。但是,组织病理图像诊断需要病理学家在高倍率下观察细胞的结构变换,这要求病理学家具有极高的水平,国内的高水平的病理学家极度匮乏。近年来,人工智能技术在医学影像领域的许多方面取得了惊人的成就,组织病理图像的智能诊断也取得了巨大进步。现有的一些研究通常依赖于病理学家对病患区
学位