论文部分内容阅读
目的:本课题全面深入探讨根据基因表达谱对组织样品分类的统计学方法,主要是探索减少基因数的有效统计学方法和对比研究对组织样品有效分类的统计学方法,同时对分类效果的考核方法作应用研究。方法:本课题所统计分析的数据集是由72例白血病病人(行)和7129个基因(列)组成的白血病基因数据集。通过剔除取值变动不大的基因、基因变量聚类、典型指标(基因)的选择和共线性诊断这四个步骤和方法筛选出对白血病分型有用的基因。应用11种系统聚类分析方法对筛选后的白血病基因数据集进行样品聚类,采用预测强度法对这11种聚类分析方法的聚类效果进行考核。为了评价预测强度法应用于聚类结果合理性的考核是否可行,应用错误率考核法及真实性评价指标来考核各种聚类分析方法聚类结果的合理性,并与预测强度法的考核结果作一比较。结果:1.基因筛选结果表明:通过剔除取值变动不大的基因、基因变量聚类、典型指标(基因)的选择和共线性诊断这四个步骤和方法共筛选出对白血病分型有用的基因共48个。2.聚类分析结果表明:用11种系统聚类分析方法对由48个典型基因与72例白血病病人组成的数据集进行样品聚类分析,分为2类,其中由于此数据集不是坐标型数据,故不适合用最大似然法分析。其余10种聚类分析方法中,只有可变类平均法和离差平方和法将该数据集分为两类。3.聚类效果考核结果表明:应用预测强度法考核可变类平均法和离差平方和法对组织样品分类的效果,结果发现在其他条件相同的情况下,可变类平均法在b=-0.9和b=-0.5时的聚类效果是较好的,比较适合该白血病数据集的,其中在b=-0.5时,可变类平均法的聚类效果既是合理的又是最好的;可变类平均法在b=-0.8,b=-0.7,b=-0.6,b=-0.4和b=-0.3时的聚类效果是较差的,分类是不合理的;离差平方和法的考核结果表明该法的聚类效果是较差的,分类是不合理