基于SVM和AdaBoost的肿瘤基因表达谱分类研究

来源 :北京交通大学 | 被引量 : 2次 | 上传用户:thomas012
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
摘要:肿瘤是世界上危及人类身体健康的主要恶性疾病之一。肿瘤的早期发现,对病人的治疗有着非常重要的意义。基因芯片技术的出现和发展,促进了肿瘤在分子水平上的研究。从海量的肿瘤基因表达谱数据中,挖掘出有用的相关知识和信息,可以更加全面地认识肿瘤的基因本质,更加深入地了解肿瘤与基因之间的关系,对推进肿瘤的临床诊断和治疗和研制新药物有着至关重要的作用。本文针对肿瘤基因表达谱数据小样本、高维数、非线性等特点,基于机器学习由Co-training的思想,建立了以AdaBoost算法为基础,分别级联了SVM分类算法和单基因弱分类算法的模型。在通常情况下,影响学习和分类效果的主要是被错误分类的样本,AdaBoost-SVM算法通过重点训练被分类器错误分类的样本来减少错误分类率;主要思路是:AdaBoost-SVM重点标记被错误分类的样本权重,并且在反复迭代中多次学习该类样本,以减少被错误分类的样本个数,从而达到降低错误分类率的目的。经过对真实的结肠癌基因表达谱数据进行大量实验,从2000个基因中找出了20个基因作为分类的特征基因,通过交叉实验,取得了不错的分类效果。本文最后并对AdaBoost-SVM进行改进,可以将已知的先验知识加入到分类模型中,从而提高分类的可靠性。
其他文献
目的研究作为药物级别重组人血清白蛋白/促红素融合蛋白的生产制备工艺;开展详尽的融合蛋白理化特性研究;提出作为长效创新药物的质量基础和技术指标。方法利用基因工程技术
[目的]寻找3种观赏凤梨花蕾组织培养的适宜培养基,建立组培快繁体系。[方法]以3种观赏凤梨的花蕾作为外植体进行组织培养,找出合适的诱导培养基、增殖培养基和生根培养基。[
背景:乳腺癌和糖尿病均是当今世界的高发病且两者之间存在一定联系,既往大量流行病学研究表明,糖尿病患者有更高的患乳腺癌的风险,同时患有糖尿病和乳腺癌的患者较非糖尿病乳
介绍了倒加料工艺在20 L小试验釜和30 m3工业化试验大釜上的应用情况,对正加料、倒加料工艺进行了比较,可知采用倒加料工艺能提高树脂性能、改善树脂的粒径分布、缩短聚合反
第一部分超声实时弹性成像整体应变率比值与局部应变率比值在乳腺良恶性病灶诊断中的价值比较目的探索超声实时弹性成像局部应变率比值、整体应变率比值对乳腺良恶性病灶的诊
【背景】Th17细胞(辅助性T17细胞)是一种新近被认识的CD4~+ T细胞亚群,以特征性高水平分泌白介素17(IL-17)而被命名,为近年来免疫学研究热点之一。随着研究的逐步深入,Th17细
认清发展现状,提出有效发展对策,为宁夏葡萄生产机械化发展提供决策支持。本研究采用文献法、调查法对当前宁夏葡萄生产机械化的现状进行深入研讨。分析可知当前宁夏葡萄生产
本文采用文献资料法,通过纵向比较刘翔与老一辈运动员所处时代的历史发展机遇,从偶像崇拜时代变迁、刘翔自身个性、商业化浪潮、大众传媒助推以及当今国民的包容心态等几方面
针对社会大变革的背景下,移民搬迁安置和安稳致富过程变得较为复杂,新老水库移民都出现了上访频次呈增多趋势的问题。分析了水库移民不稳定因素产生的原因及所反映的基本矛盾
随着科学技术的发展,GPS技术的应用范围越来越广。文章对GPS技术的概念进行了总结,对其在公路测量中的应用进行了重点分析,从而更好的提高公路的测量质量。