基于联合嵌入学习与回归方法的研究及在癌症组学数据中的应用

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:xiameng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
癌症组学数据通常是不易挖掘的高维小样本数据,而癌症的一些关键信息隐藏在这些高维数据中。为了挖掘这些数据中的关键信息,对其进行有效降维是必要的,这也成为诸多研究的热点。在生物信息学中,特征选择是一种被广泛运用的降维方法,如联合嵌入学习和稀疏回归方法(Joint Embedding Learning and Sparse Regression,JELSR),但传统的特征选择方法在分析癌症数据时存在弊端:基因组数据中存在的大量噪声值和冗余值会降低算法的稀疏性;计算误差值的平方项会增大算法对噪声值和异常值的敏感度并降低算法的性能;传统方法使用的数据集通常是单个视图而忽略了其他视图对数据的影响,同时该方法的常规项采用稀疏回归约束,忽略了数据的固有结构。因此,针对传统方法中存在的问题,本文基于JELSR模型,分别从以上三个方面对传统方法的稀疏性、鲁棒性等性能方面进行了改进,同时可以进一步选择更有效的致病基因,主要包括以下研究:(1)提出一种基于联合约束的JELSR模型(LJELSR)。该模型引入了1L范数与原有的L2,1范数形成联合约束,从而增强矩阵行列之间的关联性,提高算法的稀疏性;基于该模型的特点给出一个新的迭代算法来获得收敛解。实验结果表明,LJELSR与先前方法在识别差异表达基因和样本聚类方面相比取得不错的效果,而且选择出的独有差异表达基因可能在医学研究中具有重要价值。(2)提出一种基于Lp范数的JELSR模型(RJELSR)。该模型引入了Lp范数约束替代原有的平方约束,降低算法对噪声值和异常值的敏感度,使得算法更加鲁棒健壮;基于增广拉格朗日乘子法给出有效的优化策略;对不同的癌症数据进行预处理以获得整合数据,再将新方法应用到整合数据中进行特征选择和聚类分析,结果表明实验选择的特征基因更具有生物学意义。(3)提出一种多视图联合稀疏低秩回归和嵌入学习模型(MJSLRE)。该多视图模型充分考虑到癌症的不同类型信息,而且在目标函数中引入稀疏低秩回归约束,保留了数据的固有结构,提高了子空间的学习效率及算法的鲁棒性。实验结果表明,MJSLRE方法在不同的多视图基因组学数据中挖掘出更具有医学参考价值的致癌基因,并且聚类分析的效果亦优于其他对照方法。
其他文献
十九世纪下半叶,西班牙民族乐派逐步兴起,在钢琴领域出现了一位伟大的作曲家阿尔贝尼斯。阿尔贝尼斯的晚期创作了一部经典钢琴组曲《伊比利亚》,其中的一首钢琴作品《阿巴欣》是一首带有强烈的西班牙民族风格的钢琴作品。本文通过两个部分对该作品进行了分析:第一部分简要介绍了曲目的作者以及作品的创作背景,分析了作品《阿巴欣》的曲式结构、调式调性,以及西班牙民间音乐舞蹈、器乐元素在作品中的运用;第二部分通过对作品《
研究目的及背景:本研究的出发点来自于对中国肝移植注册(China Liver Transplant Registry,CLTR)2011中国肝移植年度科学报告中关于肝移植术后急性排斥反应(Acute rejection,
铅锌矿是富含金属元素铅和锌的矿产,铅、锌元素主要用于机械、冶金、电气、军工、化学、医药及轻工业等领域。贵州水城县是黔西北铅锌矿主要产地,铅锌矿的开采及冶炼产生的重金属Pb、Zn以及伴生重金属Ni、Cd、Cr、As、Hg、Cu等会富集到周边土壤中,进而被蔬菜吸收。蔬菜是矿区周边居民直接且常年食用的食物,是矿区重金属进入人体的重要途径,直接关乎居民的身体健康。本研究选取水城县境内典型铅锌矿区(杉树林矿
重叠社区结构普遍存在于社交网络、信息网络、技术网络和生物网络中,并蕴涵着有意义的信息,随着社区网络结构的日益复杂,网络中潜在的价值越来越有意义,进而有更多的学者投入到重叠社区发现的研究中,促进了重叠社区发现算法和重叠社区的评估方法更快速的发展。基于中心节点选择的重叠社区发现算法(CNS)是一种传统的重叠社区发现算法,CNS算法主要的内容是中心节点选择过程和聚类过程,在中心节点选择过程中主要根据节点
纠缠是量子物理学的一个违反直觉的特征,是量子技术的核心。高维量子态具有独特的量子特性,并在某些量子信息和量子计算任务中较传统技术更有优势,例如量子通信传输信息容量更大,量子计算和量子模拟的并行能力更强等。光子作为信息的载体,具有自由度多、易集成,相干性好等优势,此外,光子在形成多体和多维的纠缠态上具有先天的优势。传统光路设备尺寸庞大,往往系统的相位稳定性个很大的挑战。而集成技术不仅能够缩小设备尺寸
近年来,微博,Facebook,微信等大型社交网络迅速普及,形成了海量的社交网络数据。海量的社交网络数据使得经典的网络表示方法在进行网络的数据挖掘时遇到了瓶颈,经典的网络表
据2013年末统计中国是一个农业人口占总人口46.3%上的发展中农业大国,但是农业增加值占GDP的比重却仅有10.01%。我国每年虽然有6000项农业方面的科技成果,但转换为生产力的仅
设函数φ:Rn ×[0,∞)→[0,∞)满足如下条件:对任意的x ∈ Rn,φ(x,.)是一个Orlicz函数且对一致地r ∈(0,∞),φ(·,r)是一个Muckenhoupt A∞权.Musielak-Orlicz Hardy空间Hφ(Rn)将涵盖加权Hardy空间和Orlicz空间,即具有广泛的一般性,又满足这两类空间的核心性质.本文首先证明了 Musielak-Orlicz空间Lφ(Rn)
随着科技的进步,人们研制出了各种类型的火灾探测器,这些火灾探测器实现了火灾预警,最大限度的保护了人民的生命和财产安全。本文首先介绍了火灾探测器的发展历程,并对不同类型火灾探测器的优缺点进行了分析比较。针对传统气体火灾探测器稳定性差的问题提出了利用可调谐半导体激光吸收光谱技术探测早期火灾中CO的浓度,提高了火灾气体探测的灵敏度和稳定性。本文首先对吸收光谱的理论进行了简单的介绍,并分析了直接吸收光谱,
目的本研究以暴露于稀土粉尘的稀土精选矿工人作为目标人群,选取当地酒厂工人作为对照人群,通过监测工人工作场所粉尘浓度、肺部损伤标志物、系统炎症水平,全面评估人群肺功能水平,探讨稀土暴露对作业工人肺部损伤的早期影响。方法本研究选择包头市某稀土精选矿和某白酒厂为暴露企业和对照企业,选择暴露企业稀土粉尘作业人员及对照企业非原料车间工人为研究对象。利用定点采样和个体采样检测工作场所粉尘浓度。通过问卷调查,收