基于DNA微阵列数据的肿瘤特征基因选择方法研究

来源 :河南师范大学 | 被引量 : 0次 | 上传用户:guanenyu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
2017年初,国家癌症中心发布中国最新癌症数据,报告显示我国癌症新发人数呈上升趋势,形势依然严峻。DNA微阵列技术可获取大量的基因表达谱数据,为肿瘤特征基因选择和肿瘤亚型分类提供可靠的数据来源。但由于实验误差等影响,通过该技术获取的基因表达谱数据存在噪声和冗余基因,这些基因会影响肿瘤亚型分类的准确率。肿瘤特征基因选择不仅可高效地选出与肿瘤分类高度相关的基因,同时也降低了肿瘤亚型分类的成本。基因表达谱数据具有维数高、样本少、噪声多等特点,为数据的分析与处理带来了巨大的挑战。本文基于DNA微阵列技术获取的基因表达谱数据,采用机器学习等相关知识,探索出泛化能力强、分类精度高的肿瘤特征基因选择方法。主要研究内容如下:(1)基于PCA和信息增益的肿瘤特征基因选择方法。鉴于传统的主成分分析算法未将样本数据的类别信息考虑在内,基因数据信息未能得到有效利用,选出的特征基因子集中仍包含部分冗余信息,导致数据的分类精度偏低等问题,提出一种基于PCA和信息增益的肿瘤特征基因选择方法。首先利用主成分分析算法对原始基因数据集进行降维处理,选出贡献率较大的基因;然后采用信息增益算法剔除预选特征基因子集中的冗余信息,将预选特征基因的信息增益值作为衡量标准,选出信息增益值较大的基因构建肿瘤特征基因子集。实验结果表明,该方法可快速有效地选出肿瘤特征基因,且达到了预期的分类效果。(2)基于信息增益和邻域粗糙集的肿瘤特征基因选择方法。针对基因表达谱数据中包含有较多的冗余,在数据处理时还会受到噪声的影响,导致现有的一些肿瘤特征基因选择方法存在分类能力弱和鲁棒性差等问题,提出一种基于信息增益和邻域粗糙集的肿瘤特征基因选择方法。首先利用信息增益算法计算各个基因的信息增益值,经过降序排列后,选取信息增益值最大基因,利用斯皮尔曼相关系数选取与最大信息增益值基因相关性较大的基因作为预选特征基因子集;然后采用邻域粗糙集算法对预选特征基因子集进行特征基因选取,采用顺序向前搜索算法选择出重要度较大的基因。实验证明该方法比其他相关方法的分类准确率高,并且选择出的特征基因子集规模较小。
其他文献
生物信息学(bioinformatics)是八十年代末随着人类基因组计划的启动而兴起的一门新兴交叉学科,是生物学与计算机科学以及应用数学等学科相互交叉而形成的。在解释生命本质的
<正>经过神华集团和西安科技大学等数家单位近10年的联合攻关与集成创新,我国急倾斜复杂难采特厚煤层安全高效开采与环保协同关键技术,近日通过了中国煤炭工业协会组织的专家
会议
中国是食用酒精生产和消费大国。目前食用酒精提纯的主要技术为精馏法,过程能耗较大。多效精馏广泛应用于燃料乙醇的节能性分离,节能效果突出。醛类是食用酒精分离过程中较难
目的研究中药提取物姜黄素对人视网膜神经胶质瘤WERI-Rb-1细胞的放射增敏作用。方法采用X射线辐照仪辐照人视网膜神经胶质瘤WERI-Rb-1细胞。CCK-8细胞活性检测试剂盒检测0μm
一、某些企业基建项目财务管理概况映与监督是财务的两大基本职能,而目前大部分基本建设项目财务所能发挥的作用仅仅是核算功能,财务的监督和控制功能仅局限于是否符合合同规定
杨泳梁作为一名年轻的当代艺术家,其作品通常被认为极具中国集锦摄影风格。本文则更侧重于将杨泳梁置于当代艺术体系下进行分析讨论,强调他作品的综合性和独特性。笔者希望杨
目的:探讨肾寐足浴汤足浴联合耳穴贴压疗法对慢性肾脏病(CKD)患者并发失眠症状干预作用的临床疗效。方法:选择肾病科住院和专科门诊患者176例,随机分为对照组和治疗组各88例
目的:为了探讨IL-13基因编码区精氨酸(Arg)110谷氨酰胺(Gln)多态性是否与湖北地区汉族人群哮喘及血浆总IgE水平升高相关.方法:采用PCR-RFLP方法,检测湖北地区43名哮喘患儿、4
黎小斌教授是中国中医科学院中青年名中医,广东省优秀中医临床人才,第二批全国名老中医药专家李丽芸教授学术继承人,黎教授中医临证辨治有快、准、效的特点,其辨证善抓主证,
目的分析对肱骨远端C型骨折患者实施切开复位双锁定钢板内固定治疗的应用效果。方法将64例肱骨远端C型骨折并行切开复位内固定术的患者随机分为2组,每组32例。观察组实施双锁