论文部分内容阅读
基于微阵列基因表达数据的多分类研究近年来备受关注,这一研究通常会面临两个挑战:类不平衡和基因选择,尤其是重叠基因的选择.为此本文提出了两类正则化多项式回归模型并发展了相应的正则化解路算法,同时在两类微阵列基因表达数据上进行了实验验证.研究内容如下:(1)传统的急性白血病二分类问题可以进一步视为三分类问题.然而,在进行多分类时,选择致病基因,尤其是重叠基因,是一个具有挑战性的问题.根据加权基因共表达网络提出了重叠分群策略,并进一步构建了一种新的带有重叠群lasso惩罚的正则化多项式回归模型(MROGL)以同时解决多分类和群体基因选择问题.利用该方法对三分类急性白血病数据进行分析可以有效识别出协同作用的群体基因.同时,由于重叠分群策略将每一个重复的基因都看作新的基因,因此突出强调了群之间的重叠基因.此外,经过与其他5种方法进行比较,MROGL在多分类精度方面也有一定优势.(2)对不平衡数据进行多分类时更关注提升少数类的分类精度.本文丰富了重叠分群策略,它探索每一类的群结构并平等地将所有类的群合并,从而突出强调了少数类基因群的重要性.此外,根据信息理论构造了数据驱动权重.在分群策略和构造权重的基础上提出了一种带有稀疏重叠群lasso惩罚的正则化自适应多项式回归模型(AMRSOGL)并建立了正则化解路算法.实验结果表明该方法在保证总分类精度的同时,还能有效提高少数类的分类精度.同时,该方法不仅能在进行多分类时选择每个类的关键基因群,而且能自适应地选择每个群内的关键基因,对群间的重叠基因也能有效识别.由于引入了网络分析与信息理论,整个多分类和基因选择过程具有很明显的生物学意义.