基于基因表达数据的癌症亚型分类研究

来源 :北京化工大学 | 被引量 : 1次 | 上传用户：jindere

【摘要】

：

随着机器学习技术的快速发展,生物信息学研究的不断深入,利用基因表达序列中的数据对癌症进行亚型分类研究,已成为当前的研究热点之一。在分子生物学水平上,利用基因表达数据

【作者】

：

范媛

【出处】

：

北京化工大学

【发表日期】

：

2018年01期

【关键词】

：

基因表达数据特征选择信息熵极限学习机 AdaBoost算法分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着机器学习技术的快速发展,生物信息学研究的不断深入,利用基因表达序列中的数据对癌症进行亚型分类研究,已成为当前的研究热点之一。在分子生物学水平上,利用基因表达数据的分析从而对癌症早期诊断提供辅导决策,这对于癌症的正确、及时诊断,有着积极深远的意义。然而,基因表达数据有着其数据特点,即:高维度、小样本、分布不平衡等,这也对癌症亚型的分类提出了挑战。由于在基因表达数据中,存在着大量的冗余基因和噪声数据。因此,面对着海量的基因表达数据,如何对其进行特征选择,选出最具代表性的特征基因子集,是研究学者们的研究重点之一。此外,学者们还致力于寻找有效的分类方法。这两方面的研究,目的都在于提高癌症亚型的分类精度,为大数据医疗提供更精确的决策支持。本文主要基于样本数据的特点,通过学习和研究,设计快速、有效的特征选择方法。通过特征选择后的样本数据,进行样本分类预测研究。在分类阶段,研究极限学习机算法的使用和扩展,目的在于提高分类器的性能效果。本文主要完成了以下的工作:(1)由于基因的维数过高,本文提出了多维互信息(MMI)特征选择方法。多维互信息特征选择方法的算法原理在于筛选出最能表达癌症分类的基因子集。为了评价多维互信息方法的性能,选择白血病(Leukemia)和结肠癌(Colon)的典型数据集进行了案例研究。并将MMI特征选择方法与ReliefF方法进行对比,结果发现,MMI方法具有更高的分类准确率,这证明了本文提出的特征选择方法的有效性。(2)针对基因表达数据中存在的样本不平衡问题,本文首次将提升方法应用在癌症分类研究领域中。通过将Adaboost方法与极限学习机方法相结合,得到了强分类器Adaboost-ELM。利用白血病数据进行了分类实验,结果表明,Adaboost-ELM分类器在白血病数据集中有较良好的分类效果,减轻了样本不平衡对分类效果的影响。

其他文献

炼油厂增产喷气燃料技术及应用分析

增产喷气燃料、压减柴油是适应国内成品油市场变化和炼油厂调整产品结构、提质增效的关键。提高常减压蒸馏装置和加氢裂化装置煤油收率是当前炼油厂增产喷气燃料的主要途径,

期刊

喷气燃料柴油常减压蒸馏加氢裂化

宁强县森林城市规划研究

生态文明是中国特色社会主义“五位一体”总体布局的基本构成内容,森林城市作为林业生态建设的重要组成部分,已成为新形势下国家推动林业发展的新要求、实施国家发展战略的新

学位

宁强县森林城市生态建设规划

“互联网+”视域下地方本科院校成人教育教师专业发展研究

互联网技术的飞速发展,促进了信息技术与教育的深度融合,同时也带来了成人高等教育教师专业化发展诸多机遇和挑战,在"互联网+"视域下,结合当前我国地方本科院校成人教育教师

期刊

互联网+成人教育教师专业化发展

国有企业基层党组织组织力提升问题研究——以胜利油田为例

党的十九大报告指出,要以提升组织力为重点,突出政治功能,把基层党组织建设成为坚强战斗堡垒。当前,国有企业基层党组织还存在着党委职责履行虚化、党支部作用发挥弱化、政治

期刊

党的建设企业党建国有企业基层党组织组织力

结肠镜检查过程中疼痛的危险因素分析

目的分析结肠镜检查过程中患者疼痛的危险因素,建立肠镜疼痛的预测模型,为肠镜检查前是否使用镇静麻醉药物提供理论参考。方法回顾性收集2016年6~9月在南方医科大学南方医院

期刊

结肠镜疼痛危险因素麻醉肠镜

急性冠状动脉综合症与肺栓塞的诊断鉴别

目的探讨急性冠状动脉综合征与肺栓塞的诊断与鉴别,为降低误诊率提供依据。方法对18例被误诊为急性冠脉综合征的急性肺栓塞患者误诊情况与临床特点进行回顾分析。结果 18例

期刊

急性冠脉综合征肺栓塞临床诊断鉴别

基于学龄儿童认知特点的益智性文具包装设计

随着二胎政策的全面开放、义务教育制度不断完善,家长对孩子学习方面日益重视。在此背景下,学习用具的需求逐渐增加,儿童文具包装行业发展迅速。文具所扮演的角色也正从儿童

学位

益智性设计学龄儿童认知特点文具包装

敬钊毒素与电压门控钠钾通道相互作用的分子机制研究

蜘蛛毒液是含有不同的药理学特性的多肽分子的“富矿区”。多肽毒素具有高亲和力和多样化的药理学功能,因此,它们成为研究电压门控离子通道结构和功能关系的重要配体分子。Ji

学位

蜘蛛毒素定点突变电压门控钠离子通道电压门控钾离子通道电生理分析

以社会主义核心价值观引领新社会阶层发展

新的社会阶层人士包括四类人,即私营企业和外资企业的管理技术人员、中介组织和社会组织从业人员、自由职业人员、新媒体从业人员。作为"体制外"拥有一定社会影响力的社会阶

期刊

社会主义核心价值观新阶层发展

临河深基坑开挖对桩基影响的数值模拟

建立了临河桩基深基坑开挖的有限元数值分析模型,分析在临河条件下基坑底部桩基受力与变形特性,并对基坑临河水位、距离等因素进行参数分析。分析结果表明：临河基坑底部桩基的

期刊

临河桩基数值模拟深基坑承载性状

基于基因表达数据的癌症亚型分类研究

与本文相关的学术论文