面向癌症基因表达数据挖掘的低秩表示方法研究

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:wuhaozzu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今,癌症是威胁人类生命的一大杀手。随着第二代测序技术的发展,产生了海量可用的基因表达数据。虽然,这类癌症数据包含丰富的基因表达信息,为科研工作者从分子水平揭露癌症的发病机制提供了数据支撑。但是,癌症测序数据通常具有“高维、小样本和强噪声”的特点,这无疑是癌症数据挖掘工作中的一个极大的挑战。低秩表示(Low-rank Representation,LRR)是一种实现数据降维、减小噪声影响的矩阵分解方法,在癌症数据挖掘方面已取得了很多的成功。在查阅归纳了大量国内外相关文献的基础上,本论文针对现有LRR方法存在的部分不足,提出三种新的LRR方法,并将之应用到癌症基因表达数据挖据中,旨在研究癌症病变的内部机理,更精确地分析癌症亚型。具体研究内容如下:(1)提出联合截断核范数和图正则的低秩表示方法:LRR方法从观测数据矩阵分解出的低秩矩阵的奇异值是快速减小的数据序列,因此,最小化所有奇异值的核范数不是近似矩阵秩函数的最佳选择。该方法采用截断核范数代替核范数处理低秩矩阵的凸松弛问题,保留了与矩阵相关的主要成分的信息,有效降低了奇异值收缩造成的损害,更准确地近似了矩阵的秩。并且新方法引入了图正则项,捕捉到了数据蕴含的内部几何结构和相似性信息。癌症基因表达数据挖掘实验的结果显示,改进的方法增强了对噪声和离群值的鲁棒性。(2)提出双超图正则化的低秩表示方法:虽然,现有的LRR方法通过在低秩矩阵上施加图正则约束抓住了数据空间隐藏的的内部几何结构。但是,图正则无法发现基因表达数据固有的共表达信息。为了弥补这个缺陷,该方法引入两个超图正则项,分别施加在低秩矩阵和稀疏矩阵上,以提取癌症数据样本空间和基因空间存在的几何结构。癌症基因表达数据挖掘实验的结果表明,上述改进改善了方法编码数据结构空间的性能。(3)提出联合截断核范数和图正则的潜在低秩表示方法:基因表达数据具有小样本和高噪声的特点,多数的LRR方法将原始的数据矩阵作为字典矩阵不是最优的选择。该方法将原始的数据矩阵分解成两个特征矩阵和一个稀疏矩阵,其中一个特征矩阵用于癌症样本聚类,另一个特征矩阵用于差异表达基因识别,更好地处理了样本数量不足和被噪声污染的癌症数据。此外,该方法将整合的癌症基因组数据作为研究对象以探究多种癌症之间的内部关联,有效地解决了样本不均衡问题。
其他文献
长江冲淡水与周围海水发生混合、层化作用,对东海及其相邻海区环流结构、水团组成、泥沙沉淀、生态环境和海洋生产力有重要影响。以往对长江冲淡水的研究已经相当充分,但多为
现场离水辐射测量是建立高精度星地光谱信息模型的基础,但是由于船载水上非稳态的测量几何,以及水体流速、悬浮泥沙含量等要素的动态性,给光谱反射率测量带来很大误差。因此
近年来,人群计数因其广泛的应用,如公共安全、避免拥挤、流量分析等,引起了人们的广泛关注。人群计数的目的是估计由监控摄像头提供的拥挤图像或视频中的人数。利用计算机视
随着现代互联网技术的发展以及商业化应用的出现,网络所包含的图像资源数不胜数。传统的检索技术需要进行人工标注,这就意味着会花费大量的时间、人力与物力;且颜色、纹理、
大数据时代,物联网快速发展,信息和数据在网络中高效快速的传输。这极大地推动了社会进步、改变生活方式,同时这也引发了一系列信息安全问题。数字签名作为一种重要的密码学
乳腺癌是最常见的一种癌症,也是女性癌症死亡的主要原因,早期筛查对乳腺癌防治至关重要。自动全乳超声(ABUS)是乳腺癌筛查的一种新的有效的影像学检查手段,与传统手持式超声
目标跟踪是计算机视觉研究中一个重要内容,在智能监控、自动驾驶、医疗诊断等各个领域中都有着广泛的应用。然而实际的跟踪应用面临各种复杂环境场景,仍然存在许多问题亟需解
分析师是否具备预测公司未来业绩的能力对参考研究报告做出决策的投资者来说是十分重要的问题。至今,关于分析师预测能力的证据大多是基于分析师发布的盈利预测和投资建议。
波长选择开关(WSS—Wavelength Selective Switch)是新一代可重构光分叉复用(ROADM—Reconfigurable Optical Add/Drop Multiplexer)光网络中的核心器件之一。基于硅基液晶(L
眼机交互是目前人机交互技术中具有前瞻性研究价值的新方向,目前已逐步应用在虚拟现实、残疾人辅助、医疗、教育和军事等诸多领域。近年来,越来越多的设备将眼机交互的方式加