基于SAGE基因表达数据的癌症分类与特征基因提取

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:owenm87
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因表达连续分析是一种相对较新的获得基因表达水平的方法。它因能使癌症自动、准确和早期诊断而被认为能对癌症的治疗有重要贡献。一种有希望的SAGE基因表达数据的应用是癌症分类。癌症类型的自动分类和发现克服非自动化癌症诊断的缺点而有利于完善癌症疗法。在这篇论文中,我们为SAGE基因表达谱建立了三个事件模型(多元贝努利模型,多项式模型和规范化多项式模型)。我们将基于事件模型的方法与标准朴素贝叶斯方法做了比较。对癌症的二元分类和多元分类都进行了研究。对多个SAGE数据集的实验结果表明事件模型总体优于标准朴素贝叶斯。 提出了标准化信息增益(Normalized Information Gain,NIG),一种对信息增益(Information Gain,IG)的扩展,来进行基因选择。信息增益存在的问题是它没有确定的取值范围,因此很难据此比较不同基因(或标签)在不同实验下对癌症的识别能力。我们把信息增益改进为标准信息增益,它取值从0到1,其中0表明基因是完全无关,1表明基因完全可以区分不同癌症。 还研究了基因自相关对分类性能的影响。信息增益可以选择有用的基因,但不能去除多余的基因。如果某个基因和别的基因高度相关,则它是多余的。实验结果表明,去除多余的基因能简化的分类模型并使分类准确性没有明显下降,有些情况下还能提高分类性能。 进一步研究了基于SAGE数据的癌症非监督分类(即聚类)。我们将传统的特征抽取算法和聚类算法相结合,在降低了特征空间的同时,提高了聚类的性能。 本论文组织如下:第一部分是引言。第二部分描述了SAGE技术和数据集。第三部分给出了基因提取算法。第四部分描述了基手事件的分类模型和标准朴素贝叶斯。第五部分给出了实验结果和分析。第六部分描述了特征抽取算法。第七部分给出了SAGE非监督分类分析。第八部分是非监督分类试验结果。第九部分是结论。
其他文献
会话初始协议(Session Initiation Protocol,SIP),作为下一代网络的重要协议之一,凭借其成熟的设计思想、简单的语法结构以及良好的灵活性和扩展性,使得它在提出不久,便开始得到广
本文根据日常工作中处理许多非法内容提交的经验,分析和研究了许多常见的非法内容提交问题。针对带有色情内容的提交、针对站点漏洞进行的SQL注射内容提交、对密码进行暴力破
工程设计、软件硬件设计、生产管理、金融投资等领域所遇到的问题往往需要同时考虑多个目标在某种意义下的最优问题,这种含有多个目标的最优化问题被称为多目标优化问题。因为
AAA是认证(Authentication)、授权(Authorization)和计费(Accounting)的简称。AAA认证系统服务器端包括NAS服务器和认证服务器,AAA就是利用这两台服务器之间的交互来实现的。
近年来,烟草企业信息化建设取得显著成绩,许多企业通过CIMS示范工程、ERP、MIS系统的开发与应用积累了大量历史信息记录,而且它们还在以指数级增长。企业迫切地需要高效、精确、
本文在Langton具有简单形状的基于元胞自动机(CA)的自我复制模型(SR loop)基础上,设计出一种完成复杂形状个体自我复制的非旋转对称自我复制机器。CA是一个确定的动态系统,能够
现有的公安信息系统一般不具备基于位置服务(LBS)的移动能力,使得巡查的警务人员无法很好地利用公安信息系统中的有关信息,从而影响了警务工作的现场处理决策。公安信息系统势
随着SDN(Software Defined Network即软件定义网络)和OpenFlow的出现,将应用层路由使用软件编程实现成为可能。OpenFlow协议通过将网络设备控制面与数据面分离开来,从而实现了网
近年来,“小灵通”在全国各地得到了飞速发展和广泛应用。然而,由于目前电信部门使用的无线市话网络资源管理系统是基于传统的关系型数据库的管理系统,并不能处理空间查询和显示
随着国土资源信息化工作的深入,国土部门电子政务建设进入了一个新的阶段,从上至下各级国土部门基本上都已建成了自己的电子政务系统。行政审批是国土资源电子政务系统的主要功