基于动态半径的密度聚类算法及其在单细胞数据分析中的应用

来源 :海南师范大学 | 被引量 : 0次 | 上传用户:xueluowushengkk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
单细胞RNA测序技术是在单细胞水平上对转录组高通量数据进行分析的测序手段,能够实现对单个细胞的基因表达测序,准确记录单个细胞的表达水平,这将有助于我们研究细胞间的异质性表达,发现细微的潜在变化,为生物信息学的发展奠定了基础。一个单细胞RNA测序数据集可能会包含成千上万个细胞,如此庞大的数据使得细胞聚类分析成为一个非常重要而又艰巨的任务。本文首先探究了降维对单细胞聚类的影响。用6种降维算法对10个单细胞数据集降维,通过对比降维数据与未降维数据的聚类结果,发现经过降维数据的聚类效果优于未降维的数据,说明降维对聚类有着重要作用。同时对比不同维度下聚类的效果,发现在3维时出现拐点,可以达到最佳的聚类结果。然后,本文提出了一种单细胞聚类模型:D3K算法。该算法通过数据集的相异度密度、候选簇平均相异度和候选簇相异度,计算出权重,得到一组优质的初始中心点,解决了K-means算法在选取初始中心点时的随机性问题。同时,该模型中加入了动态半径参数,相较于传统固定半径的方法,设置动态半径参数可以根据数据特征灵活调整半径,有效消除噪声点的影响,优化聚类结果。通过对比动态半径和固定半径两种方法的聚类结果,发现设置动态半径参数更有利于聚类。最后,我们用10个单细胞数据集验证D3K模型的有效性,发现D3K算法在单细胞数据上表现出较好的聚类效果,其中Pollen数据集的聚类指标可达到0.95以上,Ting数据集聚类指标可达到1。同时,将D3K算法与一些常见的单细胞聚类算法进行比较,D3K算法的各项聚类指标均高于其他算法。这些结果表明,我们提出的D3K算法可作为一个有效的单细胞聚类分析工具。
其他文献
高中数学中的“解三角形”主要涉及到正弦定理、余弦定理、三角函数和差公式、面积公式等知识点,它们在整个高中阶段起着承上启下的作用,在高考中占有很重的分值。这些知识点对学生的要求比较高,很多学生难以形成正确的解题思路,从而导致学习效率比较低。本文主要针对测试卷中“解三角形”知识出现的问题进行成因分析,归纳学生在“解三角形”问题上出错的原因,就此提出相应的对策。本文主要采用了文献分析法、问卷法、试卷分析
学位
针对红树林的重要性和红树林群落周边地物类别分类等问题,本研究选取了海南省海口市东寨港红树林国家自然保护区作为研究对象,基于卫星遥感技术获取多波段遥感影像,在此基础上对图像进行分割,实现红树林区域地物目标群落分布信息的快速准确识别,其次结合前一部分所提出的分类器的结果和置信推理规则建立遥感图像语义理解模型,模型能够完整提取地物目标信息,最后给出各个置信推理规则,为修复红树林湿地生态系统工作提供数据以
学位
这些年来,生物实验中发现的蛋白质越来越多,同时也带来了一个问题,我们需要去了解这些未知蛋白质的结构和功能。而传统实验的方式很难满足人们对于未知生物序列探索的需求,因此迫切的需要采用大数据的方式来探索蛋白质的结构和功能。对这些功能未知的序列进行准确、快速的功能预测和分类,可以促进人类的发展和进步。本文的主要工作包含以下两点:在嗜热蛋白的识别中,采用氨基酸(AAC)组成、伪氨基酸组成(Pse AAC)
学位
城镇化是现代化的重要标志,也是经济社会发展各方面表现的一个载体,是实现国家现代化的必由之路。我是来自蒙古国的留学生,蒙古国是一个畜牧业为主的国家。表面上看蒙古国的城镇化水平相当高,只有小部分人居住在偏僻落后的山区或牧区,使得城镇的居民人口总数占总人口人数的比例较大。但是城镇化的质量较低,蒙古国把居民人口的性质从农村变为城镇,不是实质性的城镇化。名义上城镇化地区的基础设施和建设还是比较落后的。此外,
学位
本文数据选取了全部A股上市公司2020年1月1日-2020年2月19日全部交易日的日度交易数据,以及同时期新浪微博平台用户评论的文本数据。以股票市场为例,从新冠疫情情绪入手,构建面板数据的固定效应模型,目的是通过探究新冠疫情情绪指数对股票市场的日收益率、日换手率、日振幅的影响,研究新冠疫情对证券市场的短期影响,旨在于为投资者理性投资和国家有关宏观管理部门积极应对突发事件,避免股市大起大落,制定合理
学位
赛教融合教学模式是以学科竞赛作为载体,将竞赛内容引入课堂教学,通过理论结合实践的教学方式,提升当代学生的实践能力和创新能力,培养兼具理论知识和创新能力的全面型人才。如今,赛教融合教学模式是教育研究的热点,该模式的推广对促进创新型人才培养有重要意义。因此,基于赛教融合教学模式满意度调查数据,分析其影响因素,对教师课堂教学、学校教学改革、人才培养计划的制定以及因材施教有现实指导意义。本文围绕赛教融合教
学位
随机微分方程是概率论与数理统计方向非常活跃的一个分支,已经广泛应用于金融数学、生物数学、机器学习、控制论等各个领域。由于生活中很多现象都受随机因素的影响,如果这些随机因素有平稳独立增量性,我们可以用带跳的随机微分方程来刻画。1938年,McKean-Vlasov考虑了粒子间有弱相互作用的系统,一个粒子与其他粒子的这种相互作用可以被平均场有效地代替。随后,Kac提出了一类dXt=σt(Xt,μXt)
学位
蛋白质是人体细胞的重要组成部分,在人类生存过程中扮演着重要的角色,它具有维持生命活动的各种功能,与许多疾病有着密不可分的联系。由于蛋白质的结构及形式是多样的,那么如何准确的鉴别出各个蛋白质是十分必要的,这对确定其功能特性也有着重要的意义。传统的生物手段对蛋白质进行识别耗时费力,而基于计算机的蛋白质识别方法更高效,能满足对现代生物学研究目标的需求。因此本文的主要研究内容是利用机器学习和深度学习算法分
学位
由于新冠疫情还未得到完全控制,很多地区的学校统一采取线上教学的方式给学生授课,在线课堂成为他们日常的上课环境。而在线课堂一般采用非面对面的形式授课,老师看不到学生们的上课状态,认真听课与否大多取决于学生的自觉性,所以如何通过改善在线课堂的设计要素吸引学生的注意力,成为完善课堂智能化建设一个亟需研究的课题。针对这一现状,本文通过实验手段,模拟在线课堂学生的注意力变化情景,借助眼动仪开展教学实验并收集
学位
蛋白质作为构成生命的基本有机物在生物体中发挥着重要作用,因此对蛋白质的分类识别具有重要意义——是探索生命规律的重要一步为后续研究奠定坚实的基础。随着蛋白质序列数量的急剧增加一些传统的生物实验已无法快速、有效的识别蛋白质,因此将机器学习算法引入到蛋白质组学中为蛋白质的分类研究提供了新思路,但在研究过程中仍存在一些问题:如蛋白质序列信息未能使用恰当的数字向量表示、分类算法选择不恰当等。通过总结分析目前
学位