基于多项式回归的多癌型诊断及关键基因选择

来源 :河南师范大学 | 被引量 : 0次 | 上传用户:dingdang19822003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于微阵列基因表达数据的多分类研究近年来备受关注,这一研究通常会面临两个挑战:类不平衡和基因选择,尤其是重叠基因的选择.为此本文提出了两类正则化多项式回归模型并发展了相应的正则化解路算法,同时在两类微阵列基因表达数据上进行了实验验证.研究内容如下:(1)传统的急性白血病二分类问题可以进一步视为三分类问题.然而,在进行多分类时,选择致病基因,尤其是重叠基因,是一个具有挑战性的问题.根据加权基因共表达网络提出了重叠分群策略,并进一步构建了一种新的带有重叠群lasso惩罚的正则化多项式回归模型(MROGL)以同时解决多分类和群体基因选择问题.利用该方法对三分类急性白血病数据进行分析可以有效识别出协同作用的群体基因.同时,由于重叠分群策略将每一个重复的基因都看作新的基因,因此突出强调了群之间的重叠基因.此外,经过与其他5种方法进行比较,MROGL在多分类精度方面也有一定优势.(2)对不平衡数据进行多分类时更关注提升少数类的分类精度.本文丰富了重叠分群策略,它探索每一类的群结构并平等地将所有类的群合并,从而突出强调了少数类基因群的重要性.此外,根据信息理论构造了数据驱动权重.在分群策略和构造权重的基础上提出了一种带有稀疏重叠群lasso惩罚的正则化自适应多项式回归模型(AMRSOGL)并建立了正则化解路算法.实验结果表明该方法在保证总分类精度的同时,还能有效提高少数类的分类精度.同时,该方法不仅能在进行多分类时选择每个类的关键基因群,而且能自适应地选择每个群内的关键基因,对群间的重叠基因也能有效识别.由于引入了网络分析与信息理论,整个多分类和基因选择过程具有很明显的生物学意义.
其他文献
应用响应面法优化竹叶中总黄酮提取工艺。在单因素实验基础上,确定乙醇浓度、提取时间和料液比为响应因素,竹子中总黄酮提取率为响应值,采用三因素三水平的响应面分析法,确定
专业集群的概念和理论来源于经济学中的产业集群,是产业集群理论在高等教育,尤其是高等职业教育领域里的具体应用与变迁。在充分分析、理解其诸多理论流派观点和依据的基础上
“导学案”是20世纪90年代后期发展起来的一种新型教学模式,是以“学案”为载体、以导学为方法、教师的指导为主导、学生的自主学习为主体、师生共同合作完成教学任务的一种
本研究从酒曲中筛选出一株高产α-半乳糖苷酶的发酵乳杆菌(Lactobacillus fermentum)C2-8,将其作为鹰嘴豆、绿豆、蚕豆酸面团发酵剂以降低豆粉水苏糖和棉子糖含量,研究高产α
农产品"保险+期货"模式对转移农产品市场风险,实现农业和农民稳定增收,特别是对贫困农民转移市场风险,实现"十三五"扶贫攻坚和精准脱贫目标作用重大。而作为一种新型金融工具
莫里斯·拉威尔(Maurice Ravel,1875年—1937年)是20世纪初法国印象主义音乐中最杰出的作曲家之一。他的音乐创作涉及钢琴、歌曲和管弦乐等众多领域,其中最杰出的成就来自于
朱塞佩·威尔第作为意大利民族音乐文化的杰出代表,他的不朽作品和对歌剧艺术的卓越贡献,不但彪炳青史,而且为世人留下了极其丰厚的精神文化遗产。本文分析了威尔第的主要歌
<正>海洋水体的高盐、高压、缺氧、低(恒)温、低(无)光照及寡营养环境造就了海洋生物特殊的生长繁殖方式、适应机制,与陆地生物有明显差异,其中存在着大量复杂多样、结构新颖、活
<正>随着近二十几年对线粒体研究的深入,线粒体疾病也越来越引起人们的关注。线粒体最主要的功能是氧化磷酸化,产生ATP。线粒体疾病是线粒体基因异常或核基因异常引起能量生