基于主成分分析的基因表达谱数据降维方法研究及可视化

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:guohaohao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
“21世纪是生物技术的世纪”,随着时代的发展,基因测序技术及其他生物信息学技术正在改变着世界。其中基因表达谱数据收集和处理技术已经越来越成熟和多样,海量数据的规模和复杂度在不断增加,例如:基因组数据库、核酸和蛋白质结构序列数据库、生物大分子空间结构信息等。然而随着“大数据时代”的来临,问题也随之而来,如此大规模的数据带来的更多的是高维、海量和不完整性等巨大挑战。关于基因表达谱数据降维技术的创新与研究也在不断地更新迭代,并取得了可观的成果。主成分回归分析作为一种经典的算法得到了非常广泛的应用,并且针对不同领域演变出了许多改进和变种算法。但是它们主要是针对样本数据本身进行优化和改进,并没有将其与分类标签结合起来,这就容易导致丢失感兴趣目标信息,无法良好地发现数据潜在的内部结构关系,进而影响预测和分类性能。针对此类问题,课题研究了有监督主成分回归(Supervised Principal Component Regression SPCR)和基于Y-aware的主成分回归方法,验证了其相对于PCR方法的优越性。通过实验发现,SPCR方法随着保留主成分数量的增多,分类效果逐渐变差,而Y-aware PCR则恰恰相反,主成分数较少时,分类精度略差于SPCR,但在保留的主成分数为35左右之后,分类精度要明显好于SPCR。针对此情况,提出了基于SPCR与Y-aware PCR的加权融合(Y-SPCR)算法。最后将其应用在四种不同的高维基因数据上进行降维和分类,测试比较算法性能。实验结果表明,在分类准确率方面,Y-SPCR方法有效克服了上述两种方法各自的缺点,在不同特征数下算法运行性能稳定,平均准确率达到82%,相对传统PCR方法平均准确率提升约13%左右,相对于SPCR与Y-aware PCR方法其平均准确率提升约5%左右,分类效果理想。最后,实验对基因数据降维后的结果进行可视化设计,把降维后的数据空间结构通过友好的前端界面更加直观形象地展示出来。帮助人们以更加灵活多样的方式观察高维数据样本内潜在的结构关系。
其他文献
以意大利、法国、英国的园林为例,论述了西方园林的艺术特色。西方园林的造园艺术以"完整、和谐、鲜明"为特征,完全排斥自然,力求体现出严谨的理性,一丝不苟地按照纯粹的几何
研究了0.63C-1.75Si-1.68Mn高碳硅锰TRIP钢室温低应变速率下的拉伸性能.应变速率由4.6×10-3s-1降至4.6×10-6s-1时,高碳硅锰TRIP钢伸长率由14%~15%提高到22%左右;屈
固体废弃物用于土地整治不但可以实现对固体废弃物的资源化利用,而且为土体重构的材料研究指出了新的方向。本文对固体废弃物的种类、危害及在土地整治中的应用进行详细综述,
国民幸福理论正成为我国学术界一个热点,因其无法直接测量,从而需要一种合适的多变量分析技术来作研究支撑。在对国民主观幸福感的测量指标和潜变量进行筛查、调研、挖掘的基
<正> 会计确认是会计理论的重要组成部分,它规定会计期间终了时,采用什么方法进行结帐的原则。“权责发生制”和“收付实现制”是两种不同的会计确认基础,具有各自不同的特点
“部编本”教材是由教育部组织编写的新的义务教育语文教科书。相对原有的初中语文人教版教材,部编本教材有了很大变化,尤其在古诗文方面,增加了更多经典的传统文化篇目,具有很大的研究价值。本文共分为三章。第一章先以初中语文人教版为参照,从语文教材的选文系统、助读系统、作业系统分别分析“部编本”初中语文教材古诗文选编的变化。在分析的基础上,对两套语文教材古诗文选编变化有一个整体的认识,并综合性地总结出“部编
本文以各省技术市场技术输出、流入量为分析指标,分别利用重心模型和统计地图方法,从动态和静态两种视角探讨1992-2014年中国技术转移流源、汇地空间格局特征及其演化规律,在
初中数学新课程开展综合实践活动是使用新教材的亮点,是学生个性发展、创新精神和能力培养的有效途径。它具有自主、创新、渗透、趣味、实践、灵活等特点。开展数学综合实践
为了降低柴油机的振动,提出了对机体进行形貌优化的解决方案。根据机体结构振动形态以及振动响应的模态叠加原理,确定了基于振动响应分析和有限元模态分析结果的机体形貌优化
在序批式反应器中探究了不同浓度氧化锌纳米材料(ZnONPs)对污水生物强化除磷的影响。结果表明:(1)低质量浓I度(1mg/L)ZnONPs对污水生物除磷影响不明显,而高质量浓度(32mg/L)ZnONPs能明显