面向微生物16S rRNA序列的聚类与分类预测算法研究

来源 :桂林理工大学 | 被引量 : 0次 | 上传用户:zhongfeiran
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微生物与人类的生活息息相关,测序技术的发展使得微生物宏基因组学跨入新的发展时期,基于高通量技术扩增的生物学实验产生了大量16S r RNA(16S ribosomal RNA)序列信息,对产生的16S r RNA序列进行数据分析是生物信息学上一项严峻的挑战,其中一项主要的技术就是将16S r RNA序列进行聚类,从而分析环境中菌群物种丰度及多样性。目前,已经存在很多种不同的聚类算法,且均可实现有效聚类,因此,宏基因组学的研究者人员需要更多地考虑聚类算法的效率问题,其次,需要考虑如何更精准地通过已知16S r RNA序列的分类水平来推测未知序列的分类类别。本文的主要研究内容如下:(1)针对K-means算法参数随机初始化的情况,本文考虑到网格聚类算法及密度聚类算法相结合带来的优势,结合K-means++算法的思想策略,提出一种基于网格密度距离的K-means优化算法,并在聚类操作前对16S r RNA序列数据使用主成分分析法进行特征值提取,将维度降低,易于数据处理及可视化分析。优化后的算法在样本数量较大的数据集中,实现了初始聚类中心的稳定选取,同时减少了聚类迭代次数,提高了聚类稳定性。(2)本文提出基于优化鸽群的ELM极限学习机的序列预测方法,主要针对数据库中没有的16S r RNA序列信息,通过机器学习构建模型来预测16S r RNA序列所属分类。神经网络模型通过学习大量16S r RNA序列数据的排列信息便可以做到高预测精度的分类预测。考虑到极限学习机具有较高的学习准确性和较低的运行时间,但是随机生成的输入层权重和偏置传播到隐含层解析出的输出矩阵若为非满列秩矩阵时,算法会出现计算问题。鸽群算法存在的问题是在地图和指针算子模型运算过程中,鸽群全部向位置较好的个体移动,容易陷入局部最优,对此引入遗传算法中交叉机制使鸽群巡航跳出局部最优。针对地标算子每次迭代都将鸽群数量减半,容易导致种群多样性降低,并且过早收敛,利用柯西变异来优化地标算子,提高种群多样性。将改进后的鸽群算法用于ELM网络模型的参数进行优化,提升极限学习机网络的性能,提高预测精度。
其他文献
在工业工厂中,近年来人工智能技术逐渐被应用在自动化设备的研发中,具有自主识别能力的智能化焊接加工设备也愈来愈多,同时也出现了多种辅助焊机进行跟踪定位的方法。其中,运用以机器视觉为基础,激光结构光辅助对焊接工件位置信息进行识别的方法,由于其适用性广,光波抗干扰能力强和成本较低等优势,被广泛运用在智能焊接加工设备的研发当中。但在实际加工任务中,通过简单的检测方法或图像处理办法,焊枪在跟踪定位的过程中很
学位
在无线传感器网络中,覆盖控制的研究可以提高资源利用率,延长网络周期,提高感知服务质量,增强直接、有效、真实地访问数据信息的能力。无线传感器网络应用于多种场景下的监控和收集数据,这些过程不可避免地会涉及到路由、位置和覆盖等问题。由于传感器节点的部署不会长时间随机变动位置,则通过异常检测技术对传感器节点进行监测,以此来判断地下水管道的安全状况,及时对地下水管道进行维修和节省劳动成本。本文通过在地下水管
学位
如何快速、准确地获取土壤成分信息的技术,是开展测土配方、精准施肥以及研究植物生长周期的基础,对有效统计土地资源、精细化林业生产都具有重要的作用。高光谱分析是一种通过解析物质光谱特征数据、挖掘数据深层信息,进而对物品分类或对物质的化学组成成分定量分析的技术,高光谱的优点主要体现为成本低廉、快速测量、远距离无接触预测等。在快速获取土壤成分信息的过程中使用高光谱分析技术可以降低信息获取成本,对测土配方精
学位
<正>慢性炎性脱髓鞘性多发性神经根神经病(chronic inflammatory demyelinating polyradiculoneuropathy,CIDP)是一类常见的获得性免疫介导的周围神经病,其临床表现多样,治疗反应不一[1]。血清抗神经束蛋白155免疫球蛋白(neurofasicin 155,NF155 IgG4)抗体即是其中之一,NF155抗体相关的CIDP约占7%,抗体以Ig
期刊
随着5G通讯技术和物联网技术的飞跃式进步,定位导航技术在导航、医疗等领域中都有着至关重要的作用,在生活中通过手机等智能便携设备来获取人们的位置信息,已然成为了当代人生活的日常,室内定位也逐渐成为了人们的硬性需求。而机器学习所具备的高纬度建模能力,能够解决很多传统模型在复杂的室内场景下难以处理的问题。因此本文基于机器学习所具备的优势,重点研究了K近邻(K nearest neighborhood,K
学位
随着电力电子技术发展水平的快速提高,电机调速系统在军工业、农业乃至日常生活中都得到了广泛的应用,永磁同步电机(Permanent Magnet Synchronous Motor,PMSM)是一种交流电源设备,因其特殊的内部构造有体积小、质量轻、使用寿命长等特点,并且PMSM调速系统具有响应速度快、准确、调速范围宽等优点,这让PMSM在精密数控机床、智能机器人、航天航空等领域展现出其调速系统的优势
学位
近年来,随着人工智能技术逐步渗透到国防、教育、金融等各种各样场景,人工智能技术在为人们提供便利的同时也暴露出大量的隐私安全问题。特别是针对深度学习的反转攻击变得越来越频繁。反转攻击是攻击者利用受害者模型能够“记住”训练数据特征的特性,通过使用非法手段,获取受害者模型训练数据信息的攻击手段。如基于自动编码器的反转攻击模型。在模型训练过程中,它假定攻击者能够访问数据本身,并利用均方误差方式窃取训练数据
学位
多目标优化问题普遍存在于工程领域和科学研究中,且往往面向复杂环境,形成约束多目标优化问题。多目标进化算法具有一次获得一组可行解、不依赖问题的特性,其结合约束处理技术形成约束多目标进化算法,被广泛用于解决约束多目标优化问题。近年来,已开发出多种约束处理技术并成功应用求解约束多目标优化问题。在解决约束多目标优化问题时,目标和约束之间的平衡至关重要。然而,约束条件会使许多可行区域变得不可行,并呈现出一些
学位
城市下水管道破裂、渗漏等问题会严重影响城市居民日常生活,缺陷检测是管道健康等级评估最重要的环节之一。人工判读的方式费时费力且过于依赖专家经验,而基于传统的计算机视觉的检测方法需要对特征提取器与分类器的设计要求高且只能检测特定的缺陷类型。近年来,随着深度学习在计算机视觉领域的快速发展和管道图像样本数量的增加,本文对基于深度学习的管道缺陷检测进行研究,主要的研究工作如下:(1)设计了一个分层的网络架构
学位
在我国大力实施“双创”的背景下,大学生已经成为“双创”的重要力量,如何科学、有效、系统地培养大学生的创新创业能力,应当引起高校和企业的高度重视。在组织实施的过程中,应当将校企协同人才培养模式与培养大学生创新创业能力进行有效融合,只有这样,才能促进大学生全面发展。本文对此进行了研究和探讨,在简要分析“校企协同”模式对培养大学生创新创业能力的重要价值的基础上,重点分析了“校企协同”模式下培养大学生创新
期刊