基于基因表达谱的信息基因提取算法

来源 :浙江大学 | 被引量 : 0次 | 上传用户:wuzhigang3481
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于基因表达谱的肿瘤检测方法有望成为临床医学上一种快速而有效的肿瘤分子诊断方法,但由于基因表达谱数据存在维数过高、样本量很小以及噪音很大等特点,使得肿瘤信息基因选择成为一件有挑战性的工作。   本文研究结肠癌基因谱数据,寻找与结肠癌有关的特征信息基因及如何确定样本是否患病的方法,其建模依据模式分类法,该分类法主要分五个阶段:数据获取、数据预处理、信息基因选择、分类模型建立以及分类预测与评估。信息基因选择分别采用了信噪比和Bhattacharyya距离两种方法,并对这两种方法作了对比。由于基因表达谱数据之间存在很强的相关性,因此本文提出了K-means聚类法,对信息基因进行了进一步的选择,选取代表基因作为新的信息基因。使用K-means聚类法优点是进一步去除了噪声,降低了维度,为在高性能计算机上进行信息基因子集的搜索奠定了基础。K-means聚类把信息基因分为50类,各类中基因表达相关,可在生物医学研究中提供参考。分类模型采用了加权投票法和支持向量机两分类器,并对这两分类器作了对比。鉴于信息基因众多,本文提出了一种以上述分类器分类性能为评估准则的寻找特征信息基因的启发式宽度优先搜索算法。该方法的优点是能够同时搜索到基因数量尽可能少而分类能力又尽可能强的多个信息基因子集。分类预测与评估阶段采用了留一交叉检验和独立测试集检验。本文发现以Bhattacharyya距离结合K-means聚类来选择信息基因,以支持向量机分类性能为评估准则的启发式宽度优先搜索算法来寻找特征信息基因,结果最优。本文最后得到只需5个特征信息基因就能获得95.2%的留一交叉检验准确率和100%的独立测试集检验准确率。与其它优秀的肿瘤分类方法相比,本文的实验结果在分类性能方面具有明显的优越性。
其他文献
数学是一门基础学科,长期以来一直得到人们的重视,互动式教学法兴起并在高中数学教学中广泛传播开来,得到了很多教师的支持.问题导学法是一种新型的教学方法,在高中数学教学
Finsler几何就是度量没有二次型限制的黎曼几何.著名数学家黎曼(B.Riemann)在1854年所作的具有历史意义的就职演说中已考虑了这种情况,但鉴于没有二次型限制后计算上过于复杂,他
语文教学的最终目的,是使学生能够正确理解和运用祖国的语言文字,使学生具有听、说、读、写能力.重视并加强朗读训练是非常必要的.
微分方程历史久远,它们起源于实际问题,诸如气体动力学、核物理学、流体力学、材料力学、弹道的计算、飞机和导弹飞行的稳定性研究、化学反应过程稳定性的研究等等,由于微分方程
由于离散时间排队在不同领域有着广泛的应用,比如:计算机和通信系统,通信网络,生产管理等等,近十多年来离散时间排队系统的研究受到了越来越多的重视.本学位论文致力于研究若干离
由正大食品(宿迁)有限公司生产的一批冻鸡肉制品顺利通关。首批货物重16.3吨、货值6.86万美元,是该公司熟制禽肉首次出口。正大食品(宿迁)有限公司的前身为中粮肉食(宿迁)有
随着遥感技术的发展,不断地丰富了影像信息,从而使得遥感影像的应用得到迅速地推广。尤其在影像的聚类过程中,遥感影像的高分辨率特性较好地显示了不同类别的颜色信息,在地物提取、测绘、水土流失检测、森林分类、土地覆盖情况等实际应用中充分地展示了其优越性。因而对遥感影像聚类分析的研究具有广泛的应用前景。在目前的有监督聚类算法中,普遍认为Bayes算法的聚类效果较好,但是其结果仍然还不能满足客观的需求。主要存
“提出一个问题往往比解决一个问题更重要”.因为解决一个问题也许仅是一个数学上的或是实验上的技能而已,而提出新的问题,新的可能性,从新的角度去看旧的问题,却需要有创造
本文主要研究了Witt代数的扩代数()的结构和表示.本文第一章介绍了Witt代数及其扩代数L产生的背景、意义及其发展概况.第二章首先介绍了导子代数的定义与相关初步知识;其次,给
广义线性模型是一类非常重要的数学模型,是经典线性模型的推广,有着广泛的应运。在经济,社会,医学,生物等数据的统计分析上有这重要的意义。可以适用于连续数据与离散数据,尤其是后