论文部分内容阅读
基因表达连续分析是一种相对较新的获得基因表达水平的方法。它因能使癌症自动、准确和早期诊断而被认为能对癌症的治疗有重要贡献。一种有希望的SAGE基因表达数据的应用是癌症分类。癌症类型的自动分类和发现克服非自动化癌症诊断的缺点而有利于完善癌症疗法。在这篇论文中,我们为SAGE基因表达谱建立了三个事件模型(多元贝努利模型,多项式模型和规范化多项式模型)。我们将基于事件模型的方法与标准朴素贝叶斯方法做了比较。对癌症的二元分类和多元分类都进行了研究。对多个SAGE数据集的实验结果表明事件模型总体优于标准朴素贝叶斯。
提出了标准化信息增益(Normalized Information Gain,NIG),一种对信息增益(Information Gain,IG)的扩展,来进行基因选择。信息增益存在的问题是它没有确定的取值范围,因此很难据此比较不同基因(或标签)在不同实验下对癌症的识别能力。我们把信息增益改进为标准信息增益,它取值从0到1,其中0表明基因是完全无关,1表明基因完全可以区分不同癌症。
还研究了基因自相关对分类性能的影响。信息增益可以选择有用的基因,但不能去除多余的基因。如果某个基因和别的基因高度相关,则它是多余的。实验结果表明,去除多余的基因能简化的分类模型并使分类准确性没有明显下降,有些情况下还能提高分类性能。
进一步研究了基于SAGE数据的癌症非监督分类(即聚类)。我们将传统的特征抽取算法和聚类算法相结合,在降低了特征空间的同时,提高了聚类的性能。
本论文组织如下:第一部分是引言。第二部分描述了SAGE技术和数据集。第三部分给出了基因提取算法。第四部分描述了基手事件的分类模型和标准朴素贝叶斯。第五部分给出了实验结果和分析。第六部分描述了特征抽取算法。第七部分给出了SAGE非监督分类分析。第八部分是非监督分类试验结果。第九部分是结论。