【摘 要】
:
近年来,随着高通量生物技术的不断应用,由此产生了大量的蛋白质序列信息。但为其进行注释一直都是通过生物实验来进行。通过计算机来大量处理生物数据并提供指导信息将极大的
论文部分内容阅读
近年来,随着高通量生物技术的不断应用,由此产生了大量的蛋白质序列信息。但为其进行注释一直都是通过生物实验来进行。通过计算机来大量处理生物数据并提供指导信息将极大的加速这个过程,特别是蛋白质亚细胞位置信息,其与蛋白质功能密切相关。本文采用当前较为流行的模式识别方法来进行人类蛋白质亚细胞定位预测。为了较好的描述蛋白质序列信息,本文采用较为全面的伪氨酸组成位置特异性分数矩阵(PseAAPSSM)来提取人类蛋白质序列特征信息,但特征数据维数较高并富含冗余和噪音。为了提升数据的相关性,降低数据冗余,本文创新性地在此领域引入非线性降维算法核熵成分分析(KECA),并与经典的核主成分分析来进行对比研究。核熵成分分析通过计算由特征值和特征向量共同表出的信息熵来判断每个投影方向的贡献。而核主成分分析(KPCA)只通过特征值的大小来衡量每种成分的贡献,忽视了投影中特征向量的作用。在对特征数据进行降维之后,本文分别用经典的传统分类器KNN和多标签分类器OVR-KNN来进行预测。经过Jackknife验证之后,通过KNN预测的基于高斯核KECA的分类算法大部分亚细胞位置的预测当中要优于基于高斯核KPCA的分类算法,但是在某些亚细胞位置,特别是中心体,其预测准确率较低甚至为零。而通过多标签分类器OVR-KNN,在较大范围的核参数变化中发现基于高斯核KECA的分类算法要优于基于高斯核KPCA的分类算法。为了更进一步研究KECA中核的影响,本文对KECA中组合核函数进行了一定研究。由于通过高斯核映射将主要保留局部信息,通过多项式核映射将主要保留全局信息,本文通过将两种核函数进复合并进行多标签设置下的人体蛋白质亚细胞定位实验发现,复合核函数在保留数据特征信息方面要优于单核核函数。
其他文献
48岁的柳先生是政府机关的处级干部,工作稳定、生活安逸,但他最大的烦恼是体重随年龄增长而增加。进入不惑之年以后,1.76米的他体重突破90千克大关,血脂高、血压高、胆固醇高
复合型花卉混播是一种新兴的花卉应用形式,以宿根花卉与混播花种为主导材料营建的草本植物组合,具有种类丰富、景观相对持久、低养护、低成本等特点,符合生态型园林和节约型
近日,浙江省金华市孝顺镇中心小学的学生在上课时戴上一款名曰“赋思头环”的产品。据研发单位强脑科技公司声称,“赋思头环”利用新兴的脑机对接技术,能监测到学生上课时的注意
前言物业服务企业作为市场主体并非独立存在,其深嵌于基层社会生活与社会治理领域。随着"共建、共治、共享"的社会治理新格局不断深化,基层治理的主体责任逐渐下沉至社会一线
背景2019年美国癌症协会统计全美所有新发癌症共1762450例,其中泌尿系统新发癌症158220例,膀胱癌80470例。膀胱癌作为全球男性发病率排名前10的肿瘤,中高危非肌肉浸润性膀胱癌(non-muscle-invasive bladder cancer,NMIBC)约占膀胱癌的75%,有高达70%在一年内复发,且有高达20%患者两年内进展为肌肉浸润性膀胱癌(muscle invasive b
【目的】circRNA的生物学功能近年才走进人们的视野,它具有表达丰富、持续稳定、取材无创、特异性高等特点,可以作为癌症潜在的诊断标记物,辅助早期诊断。并且circRNA在癌症的发生发展中起着重要的调控作用,可以作为潜在的治疗靶点,为癌症的治疗提供新思路。本研究通过挖掘结直肠癌的circRNA、miRNA、mRNA公共数据库,结合多个靶点预测数据库,运用生物信息学的方法,基于内源竞争性RNA调控理
合理沉降预测方法是软土地基或路基安全性评价与加固方案决策的重要基础。由于地基或路基土的土层沉降变形总是以渗透、固结和次固结沉降为主,并需要相当长的时间才能完成,即竣工后的软土地基或路基会继续产生沉降,具有显著的时间效应,而这些实测时间数列数据中又蕴含着沉降发展的变化规律。因此,探讨更为合理的在软基上的工后沉降的预测方法,提高预测的准确性,并从已有的现场实测数据来预测沉降未来的发展动态,具有重要的理
由水玻璃和多种矿石粉组成的环境友好的二组份粘结剂可以用来制作砂芯和砂型。随着环保压力的增加,使用无机粘结剂来替代有机树脂制作砂型和砂芯是大势所趋。福士科开发的热
目的:卵巢癌是女性生殖系统常见的恶性肿瘤之一,死亡率居妇科肿瘤之首。很大一部分原因是早期卵巢癌症状十分隐匿,且无早期诊断标志物,待明确诊断时已进展为卵巢癌晚期,预后