基于基因表达数据的癌症亚型分类研究

来源 :北京化工大学 | 被引量 : 1次 | 上传用户:jindere
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着机器学习技术的快速发展,生物信息学研究的不断深入,利用基因表达序列中的数据对癌症进行亚型分类研究,已成为当前的研究热点之一。在分子生物学水平上,利用基因表达数据的分析从而对癌症早期诊断提供辅导决策,这对于癌症的正确、及时诊断,有着积极深远的意义。然而,基因表达数据有着其数据特点,即:高维度、小样本、分布不平衡等,这也对癌症亚型的分类提出了挑战。由于在基因表达数据中,存在着大量的冗余基因和噪声数据。因此,面对着海量的基因表达数据,如何对其进行特征选择,选出最具代表性的特征基因子集,是研究学者们的研究重点之一。此外,学者们还致力于寻找有效的分类方法。这两方面的研究,目的都在于提高癌症亚型的分类精度,为大数据医疗提供更精确的决策支持。本文主要基于样本数据的特点,通过学习和研究,设计快速、有效的特征选择方法。通过特征选择后的样本数据,进行样本分类预测研究。在分类阶段,研究极限学习机算法的使用和扩展,目的在于提高分类器的性能效果。本文主要完成了以下的工作:(1)由于基因的维数过高,本文提出了多维互信息(MMI)特征选择方法。多维互信息特征选择方法的算法原理在于筛选出最能表达癌症分类的基因子集。为了评价多维互信息方法的性能,选择白血病(Leukemia)和结肠癌(Colon)的典型数据集进行了案例研究。并将MMI特征选择方法与ReliefF方法进行对比,结果发现,MMI方法具有更高的分类准确率,这证明了本文提出的特征选择方法的有效性。(2)针对基因表达数据中存在的样本不平衡问题,本文首次将提升方法应用在癌症分类研究领域中。通过将Adaboost方法与极限学习机方法相结合,得到了强分类器Adaboost-ELM。利用白血病数据进行了分类实验,结果表明,Adaboost-ELM分类器在白血病数据集中有较良好的分类效果,减轻了样本不平衡对分类效果的影响。
其他文献
增产喷气燃料、压减柴油是适应国内成品油市场变化和炼油厂调整产品结构、提质增效的关键。提高常减压蒸馏装置和加氢裂化装置煤油收率是当前炼油厂增产喷气燃料的主要途径,
生态文明是中国特色社会主义“五位一体”总体布局的基本构成内容,森林城市作为林业生态建设的重要组成部分,已成为新形势下国家推动林业发展的新要求、实施国家发展战略的新
互联网技术的飞速发展,促进了信息技术与教育的深度融合,同时也带来了成人高等教育教师专业化发展诸多机遇和挑战,在"互联网+"视域下,结合当前我国地方本科院校成人教育教师
党的十九大报告指出,要以提升组织力为重点,突出政治功能,把基层党组织建设成为坚强战斗堡垒。当前,国有企业基层党组织还存在着党委职责履行虚化、党支部作用发挥弱化、政治
目的分析结肠镜检查过程中患者疼痛的危险因素,建立肠镜疼痛的预测模型,为肠镜检查前是否使用镇静麻醉药物提供理论参考。方法回顾性收集2016年6~9月在南方医科大学南方医院
目的 探讨急性冠状动脉综合征与肺栓塞的诊断与鉴别,为降低误诊率提供依据。方法 对18例被误诊为急性冠脉综合征的急性肺栓塞患者误诊情况与临床特点进行回顾分析。结果 18例
随着二胎政策的全面开放、义务教育制度不断完善,家长对孩子学习方面日益重视。在此背景下,学习用具的需求逐渐增加,儿童文具包装行业发展迅速。文具所扮演的角色也正从儿童
蜘蛛毒液是含有不同的药理学特性的多肽分子的“富矿区”。多肽毒素具有高亲和力和多样化的药理学功能,因此,它们成为研究电压门控离子通道结构和功能关系的重要配体分子。Ji
新的社会阶层人士包括四类人,即私营企业和外资企业的管理技术人员、中介组织和社会组织从业人员、自由职业人员、新媒体从业人员。作为"体制外"拥有一定社会影响力的社会阶
建立了临河桩基深基坑开挖的有限元数值分析模型,分析在临河条件下基坑底部桩基受力与变形特性,并对基坑临河水位、距离等因素进行参数分析。分析结果表明:临河基坑底部桩基的