两类稀疏群Lasso及其在生物信息挖掘中的应用

来源 :河南师范大学 | 被引量 : 0次 | 上传用户:lskiba
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
稀疏回归模型具有在高维数据上预测和估计未知参数的优点,因此在统计学、机器学习、生物信息学等领域引起了广泛的关注.然而将其应用于复杂疾病和复杂生物过程的生物信息挖掘中时面临着群体基因选择、生物可解释性等问题.为此,本文通过结合系统生物学中的网络分析方法和统计机器学习中的群lasso方法,提出了两类稀疏群lasso模型,发展了相应的快速求解算法,并将其成功应用于微阵列数据分类和基因选择中去.本文的主要贡献如下:  (1)针对微阵列数据的二分类问题,提出了基于加权基因共表达网络分析的自适应稀疏群lasso模型,并且发展了相应的求解算法.该方法一个主要创新点是将群lasso中的基因群和加权基因共表达网络中的模块结合起来,提出了一种对应于生物通路的分群策略.另一个创新之处是通过评估基因重要性构造具有生物意义的权重,提出了一种自适应基因选择策略.将上述模型和求解算法应用到大鼠肝细胞增殖过程的生物信息挖掘中去,成群地筛选出了与肝细胞增殖相关的基因.与其他五种模型相比,本文所提模型获得了最高的分类精度和最稳定的基因选择性能.  (2)针对微阵列数据的多类分类问题,提出了基于加权基因共表达网络分析的多项式稀疏重叠群lasso模型,并且发展了该模型的求解算法.该方法的主要创新是使用加权基因共表达网络分析方法将多类分类超高维生物数据进行重叠分群,从而提出了一种重叠分群策略.将上述模型和求解算法应用到肺癌的诊断和群体基因选择中去,成群地筛选出了与肺癌高度相关的基因.相对于其他三种模型,本文所提出的模型取得了更好的分类性能和最稳定的基因选择性能.
其他文献
本文主要用移动平面法研究单位球上一类分数阶Laplace方程正解的径向对称性与单调性.文章主要用到两种方法:一是积分形式的移动平面法;二是直接形式的移动平面法.  本文的
学位
期刊
本文主要讨论了环链L的几个多项式不变量的微分性质.这里所讨论的环链是具有普遍性的,即由n个纽结按照任意方式构成的环链.首先对环链L的Jones多项式V(L;t)以及在Jones多项式基
近年山东警方破获值5.7亿元非法疫苗案件,案件主要是接种疫苗未经2℃-8℃存储冷链运输的疫苗或过期疫苗,为群众生命财产安全带来巨大隐患,国家势必会加强对疫苗运输的监管.利
中国北斗卫星导航系统是全球第三个成熟的卫星导航系统,但与GPS系统相比,北斗的卫星轨道比较特殊,而且在轨卫星的数目较少,因此对天线的要求比较高,特别是车载天线是固定在一
本文研究对象是生命系统中具有关键作用的一类生物大分子—核糖核酸(RNA)分子,RNA的分子结构呈现出多样的变化性。其中最基本的一级结构是四种碱基(A,C,G和U)在其分子基链上的排
本文证明了满足强分离条件下的自相似集是拟对称等价的,并且这个等价类包含了所有的C1,α双Lipschitz的迭代函数系统的吸引子,而对于部分C1双Lipschitz的迭代函数的吸引子并不在
随着教学模式的深入改革和创新,艺术设计专业教学作为高等教育行业中的重要组成部分,要充分发挥学生的主体作用,才能不断培养学生的艺术创新能力.在新课程教学背景下对艺术设