面向生物序列功能性多分类问题的多核学习方法研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:zalatan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然界中存在着大量的生物序列。这些生物序列往往有着某些功能,对生物序列功能性研究一直是生物信息领域的热点。这里我们依据蛋白质氨基酸序列研究膜蛋白多分类,以及根据RNA/DNA序列研究亚细胞定位。膜蛋白具有多种对器官存活至关重要的生物功能,如氧化还原酶、转移酶或水解酶。如果能检测到膜蛋白的特定类型,就能快速确定蛋白的生物功能。现有的计算方法不仅利用了氨基酸疏水性指数的自相关函数,而且考虑了一级蛋白序列的进化保守性信息。同时,生物分子的生物学功能依赖于它们在细胞中所处的细胞腔室。重要的是,RNA被分配到细胞的特定位置,使细胞能够以并发的方式实现不同的生化过程。然而,现有的大量RNA亚细胞定位分类器只能解决单标签分类问题。事实上,一个初级RNA转录本被用来制造多种蛋白质。因此,将RNA亚细胞定位问题扩展为多标签分类问题具有重要的现实意义。这些研究对药物设计、医学诊断等方面有着重要的科学意义和应用价值。膜蛋白多分类研究中,一个膜蛋白序列只属于一个类别,因此这是一个单标签多分类问题。我们使用平均块(Av Block)、离散小波变换(DWT)、离散余弦变换(DCT)、梯度直方图(HOG)和伪PSSM(Pse PSSM)从位置特定分数矩阵(PSSM)中提取演化特征。并根据以上5个特征集构造5个核。在此基础上,我们提出了一种新的基于希尔伯特施密特独立性准则(HSIC)的多核支持向量机(MKSVM)分类器来整合五个核用于膜蛋白的识别。为了评估性能,我们在膜蛋白的四个基准数据集上测试了我们的方法。比较结果表明,我们的预测模型在所有现有的优秀方法中取得了最好的性能。RNA亚细胞定位研究中,一个RNA/DNA样本序列可能属于多个类别,这是一个多标签多分类问题。我们在不同类型的RNA上提取关于RNA相关亚细胞定位的多标签分类数据集,由此构建四个RNA类别的亚细胞定位数据集。为了研究人类,我们进一步建立了人类RNA亚细胞定位数据集。此外,我们利用不同的核苷酸性质组成模型来提取有效的特征,以充分表达核苷酸序列的重要信息。我们提出了一种解决这类问题的方法,那就是通过基于希尔伯特施密特独立性准则(HSIC)的多核学习来融合多元信息。最优组合核可以放入集成支持向量机模型,用于识别多标记RNA亚细胞定位。在结果上,与其他预测工具相比,我们的新方法在新的基准数据集上表现更出色。并且我们建立了方便用户的web服务器,该网站可以被大多数相关研究者使用。通过对生物序列功能性的多分类研究,我们解决了膜蛋白单标签多分类问题,通过使用的我们的方法每个数据集都取得了出色的结果。并且我们提出了一种较新的多核学习算法,将拉普拉斯图正则项加入其中,这样增加了模型的鲁棒性。同时,在RNA膜蛋白亚细胞定位多标签多分类问题,我们构建了多个多标签的数据集,为未来研究者提供了方便。除此之外,我们提供了一个多标签多分类的模型,该模型给其他研究者作参考。
其他文献
随着机器学习和深度神经网络两个领域的迅速发展以及智能设备的普及,人脸识别和分析技术正在经历前所未有的发展。目前,人脸识别和分析精度已经超过人眼。此外,人脸表情识别(Facial Expression Recognition,FER)作为人脸识别和分析技术中的一个重要组成部分也已经达到了前所未有的精确的效果,但对于复杂环境下的人脸表情图像(有遮挡、低分辨率、有额外噪声),想要达到同样的精确的识别结果
学位
为了提升石油烃污染土壤的修复效率,考察了不同表面活性剂(吐温-80 (Tw-80)、曲拉通X 100 (TX 100)、十二烷基硫酸钠(SDS)、十二烷基苯磺酸钠(SDBS))对过硫酸钠氧化土壤中石油烃的强化效果,并分析了表面活性剂SDS强化修复效果较优的原因。土壤中石油烃的去除率遵循如下趋势:SDS>SDBS>TX 100>Tw-80。SDS强化修复效果较优可能与其在土壤中吸附量较小对石油烃的增
期刊
通过眼球捕捉的视觉信息是人脑认知世界、感知周围、捕捉外界信息的重要途径之一,随着眼动跟踪设备的不断完善,使用眼动数据分析人脑认知的方式越来越受到研究人员的关注。然而目前对眼动数据的研究主要是从“自底向上”的角度分析,缺乏对“自顶向下”因素的讨论与定量化分析计算。本文主要从“自顶向下”的角度对多目标跟踪过程中的凝视控制进行分析,探究了人脑完成多目标跟踪任务中进行的注意力分配过程,并研究了条件熵与凝视
学位
在21世纪的今天,人工智能蓬勃发展,而神经网络模型技术的逐渐成熟在其中起到了关键性的作用。神经网络模型作为一种特征提取器在多个研究领域都展现出了强大的性能。这主要是因为它对复杂函数有着强大的拟合能力,并且参数越多拟合能力越强。因此网络结构被设计的越来越深、越来越宽。然而,模型的训练和测试不仅要占用非常多的存储空间,还对设备的硬件有较高的要求。这给神经网络模型在边缘端设备上的部署造成了非常大的障碍。
学位
本论文探讨了基于虚拟现实技术的急救护理教学模式及其效果评估。首先介绍了虚拟现实技术在护理教学中的应用,指出传统教学模式存在的问题。随后详细讨论了基于虚拟现实技术的急救护理教学模式的设计原则和构建要素,并结合实际案例进行说明。接着介绍了急救护理教学模式的实践应用过程和步骤,并提出了虚拟现实技术在急救护理教学中的应用效果评估方法。通过实验设计和数据收集,对教学模式的效果进行评估和结果分析。最后进行讨论
会议
在异常数据检测中,由于数据量过大和数据特征维度过高,往往会导致数据标定困难、数据冗余、算法效率降低等。针对以上问题,将主成分分析(PCA)特征选择算法与深度自编码高斯混合模型(DAGMM)相结合,提出一种新的无监督异常数据检测方法 PCA-DAGMM。该方法首先利用PCA特征选择算法对数据进行预处理,去除对分类效果增益较小的冗余数据,降低运算成本;然后将特征选择后的数据输入到DAGMM模型中进行训
期刊
随着计算机视觉技术的飞速发展和监控系统的广泛应用,通过对二者进行结合而衍生出的智能视频监控技术也不断取得进步,其中人员检测任务又是智能视频监控领域的一个重要主题。目前主流的人员检测方法主要基于图像进行检测,算法的效果直接影响到整个智能视频监控系统的实用性,因此设计一个高精度、鲁棒性好、高效的人员检测算法显得尤为重要。现有的人员检测算法在检测过程中面临着诸多因素的干扰,其中遮挡问题是一个研究的重点和
学位
目的 探究虚拟现实技术(VR)沉浸式教学模式在急救中的实践效果。方法 将我校2020级护理专业学生120名作为研究对象,根据抽签法进行分组,包括参照组60名,在进行课堂讲授及示范后采用情景模拟的方式进行急救演练;实验组60名,在进行课堂讲授及示范后采用VR沉浸式教学模式进行急救演练,观察两种教学方法考核成绩、教学效果指标、非技术技能水平之间的差异。结果 实验组理论知识及操作技能考核成绩均高于参照组
期刊
作为中国传统法律文化的基础性命题,情理法的实质是一个建构判决合理性的过程。以《驳案新编》为切入点可以看到,传统司法者在情罪允协的司法追求下,通过多种司法技术的运用以实现判决合理性的建构。不同于情理法之情理会随着时代的发展而发生变化,情理法在运用这些司法技术建构判决合理性的过程中所体现出来的开放性具有普遍的法理意义。若以现代法学的眼光审视,这种开放性既有消极的一面也有值得借鉴的一面。通过个案分析可以
期刊
深度神经网络广泛应用于自然语言处理、计算机视觉和语音识别等领域。随着深度神经网络的模型结构日趋复杂、参数量以及训练数据不断增加,传统的单机式训练方法已不能满足实际应用的需求。为实现深度神经网络的训练加速,分布式并行训练成为研究热点。分布式训练通过多计算节点间梯度参数的通信聚合实现模型更新。但是,频繁且大量的数据通信降低了训练速度,同时增大了数据传输带宽压力,导致平台扩展能力低和成本高等问题。尤其是
学位