唐氏综合征小鼠关键蛋白的可视化降维和半监督分类方法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:zsx08
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
唐氏综合征(Down Syndrome,DS)是目前较为常见的染色体疾病,主要由于人类21号染色体的额外复制导致的基因畸变,从而影响蛋白质的正常表达,造成DS患者学习、记忆等正常功能的缺失。目前DS在新生儿中占有较高的发病率且暂无有效的药物治疗方法,因此探究与DS相关的蛋白质表达,对于寻找有效的药物靶标及治疗方向具有重要的指导意义。本文针对公共的小鼠蛋白质表达数据集进行研究,论文的主要工作内容如下:(1)小鼠蛋白质数据的预处理和关键蛋白提取。对本文研究的小鼠蛋白质数据进行缺失值填充,并通过Min-Max标准化方法归一化数据范围。通过Mann-Whitney U检验方法在正常小鼠组内、三体小鼠组内以及正常小鼠和三体小鼠之间进行两两配对组别比较,获得不同刺激条件下表达水平有显著性差异的关键蛋白,并通过Bonferroni校正方法对显著水平进行校正,消除多次比较实验中存在的假阳性。(2)结合极端随机树和t-SNE方法,提出高维蛋白质数据的ET-tSNE可视化降维算法。针对难以了解高维数据的分布结构、数据间内在联系等问题,考虑通过降维方法对高维蛋白质数据实现可视化,增强高维数据的可解释性。本文提出的ET-tSNE算法相较其他降维方法取得了更好的可视化结果,且在二维空间进一步探讨蛋白质数据间的生物意义,验证了提取的关键蛋白的正确性,具有较好的表现。(3)提出了基于半监督和Stacking集成学习的SSSELC关键蛋白分类算法。针对计算机辅助诊断、药物发现等标签稀缺的场景,半监督学习方法更为适用。同时引入集成学习算法以进一步提升分类效果,与半监督方法相辅相成。因此本文提出的SSSELC算法将半监督学习与Stacking集成学习模型相结合,SSSELC算法相较其他方法分类性能有较为明显的提升,且推广至多分类数据也取得了更好的实验结果。
其他文献
中国加入WTO后,积极履行金融行业对外开放的承诺,为外资银行在国内的快速发展提供了良好的必要条件。H银行(中国)有限公司(下称“H银行(中国)”)是最早进入中国大陆市场的外资银行之一,在中国境内的资产规模不断扩大,但受到资源、定位、风险偏好等限制,目前市场份额依旧很低。贸易融资是商业银行的主要业务之一,能帮助商业银行创造收益、优化信贷结构、降低风险。在当前复杂且充满激烈竞争的市场环境下,H银行(中
学位
改革开放引领我国经济进入发展的快车道,中国普通老百姓的生活变得越来越好。与此同时,保险行业也迎来了发展的新时代。对于保险企业而言,当前面临的最大的挑战是人才的识别、甄选、任用及留存的问题。就我国保险市场的现状来看,保险的销售模式还是以代理人也就是我们所说的营销员的销售方式为主。然而,由于我国保险业自诞生以来,保险营销员的甄选方式都比较粗放,入行门槛低,文化素质普遍不高,人员流动性大,误导销售的情况
学位
房价与人们生活和经济发展紧密相关,深受广大居民、企业、学者和政策制定者等的密切关注。土地是房地产业的重要组成部分,随着我国税制改革、土地市场改革、房产改革等制度建设的推进,土地的有偿使用和房产相关的税费给地方政府带来了高额的收益,成为财政收入中的重要组成部分。围绕土地所形成的收支关系即为“土地财政”。在经济快速发展和城镇化进程加快的背景下,土地财政和政府的调控政策共同对房价产生影响。本文基于200
学位
随着计算机科技的飞速发展,金融公司的软件和交易所的技术不断地更新迭代,新技术的广泛运用,促使依托算法模型的量化交易逐渐成为了一种新的高频交易方式,也为投资者带来了一种新得投资理念,投资决策更趋理性,越来越多的投资人开始运用量化投资交易和程序化交易。尽管现在量化交易平台的功能越来越完善,研究量化投资交易理论的文献也越来越多,但由于量化交易策略的保密性,真正可以供投资者入门和研究学习的策略一般都是非公
学位
在过去的20年中,单分子技术得到了飞速发展,这些前沿技术通过促进单分子操作和检测,彻底改变了生物学研究。在最近十年中,SH3结构域已作为许多信号转导和细胞骨架蛋白的胚间部分出现,并已显示出介导了无数种蛋白-蛋白相互作用的功能。除了它们作为蛋白质衔接子的生物学重要性外,它们独立折叠的能力,适中的大小以及缺乏二硫键等特性使SH3结构域成为一种吸引人的模型系统,可以最简单地理解蛋白质折叠的原理。使用盐酸
学位
近年来,深度学习在分类任务上取得了令人瞩目的效果。经典的深度学习模型假设训练和测试数据遵循独立同分布准则,然而,现实应用任务很难达到独立同分布的假设并导致模型性能下降。为了解决带标签样本稀缺、模型泛化能力不足的问题,域泛化被提出来并受到了广泛的关注。其中,基于元学习的域泛化方法通过模拟域差异来提高模型的泛化能力,取得了良好的性能表现。但是,当前基于元学习的域泛化模型受限于传统的情景训练方式,接触的
学位
声学多普勒流速剖面仪(Acoustic Doppler Current Profile,ADCP)是一种利用声波散射的原理实现流速测量的新型测流仪器,已广泛用于海洋学研究和海洋应用开发。它可以实现高精度、远距离的测流,是水文监听、海洋观测、国防建设、水路导航的重要基础,因此对多普勒流速剖面仪的研究具有重要意义。本文主要围绕多普勒测流的发射信号与接收处理算法展开研究。在前人的研究基础上,改进了经典宽
学位
属性级情感分类作为情感分类任务中一项不可缺少并且更细粒度的任务,旨在对输入句子中的每个属性的情感极性(正向情感、负向情感、一般情感)进行自动预测。在属性级情感分类任务中,为了获得每个上下文词在特定语境上的重要程度,主流模型通常会在神经网络中加入注意力机制。然而,这种注意力机制往往只关注少数具有情感极性的高频词,忽略了许多低频的重要单词。另一方面,由于属性级情感分类任务的语料较少,也大大增加了神经网
学位
水下图像在海洋科学研究、水下信息的智能感知等领域中发挥着至关重要的作用。然而,水下图像往往存在颜色失真、低照度等劣化现象,阻碍了水下视觉任务的开展。此外,一些水下图像复原算法的计算、空间复杂度较大,尤其是基于深度学习的方法部署在水下机器人中受到功耗和处理器计算性能的限制,影响了实际的应用。因此,研究水下图像复原及其算法加速具有重要的科学意义和实用价值,本文的主要内容如下:(1)提出了一种基于成像模
学位
锂离子电池被广泛应用于智能穿戴设备和电动汽车。粘结剂在锂离子电池电极中占比虽小,但对电极结构参数、机械性能和电化学性能有重要的影响。传统正负极粘结剂聚偏氟乙烯(PVDF)和丁苯橡胶(SBR)在应用场景和成本方面均有改进趋势。高性能、低成本的新型水性粘结剂亟待开发。近年来,研究者们多从天然粘结剂、合成粘结剂、改性粘结剂和复合粘结剂四个角度对锂离子电池粘结剂进行开发。多数天然粘结剂能够提升电极性能,但
学位