论文部分内容阅读
基因芯片技术是目前研究人类基因组和其他各种模式生物基因组复杂性的最强有力的工具,这一技术已经广泛地应用于生物学和医学的各个领域。但是随着基因芯片技术的不断发展,产生的基因表达数据也在不断增加,如何有效的处理和管理芯片实验所产生的大量数据引起研究人员的广泛关注,并由此产生了众多的基因芯片的基因芯片数据分析方法。在众多的分析方法中,聚类分析因为能根据基因表达谱的相似度将基因分类,为研究人员推测基因功能和基因调控网络等提供很大的帮助,所以是目前基因芯片分析中应用比较广泛的方法。因此,针对本文所要研究的雌激素对前列腺增生影响的基因芯片,主要采用聚类的方法进行研究和分析。
论文的主要工作:通过使用具有外部标准的酵母周期数据集,来研究Silhouette指数,FOM测量在评价基因聚类分析上的能力和类数估计能力,为后面选择合适的SOM网络结构,寻找合理的类数提供一种依据。之后在对基因表达数据的预处理过程中提出对其了改进的标准化算法,即将中心化融入聚类过程中。然后在分析了常见的基因表达聚类算法的优点和不足的基础之上,提出了对其改进方法,基于类均值标准化的SOM与Kmeans聚类算法相结合的算法。通过将类均值的标准化方法融入到SOM的聚类当中来消除在聚类过程中产生的偏倚,然后采用Kmeans算法对高分辨率的SOM聚类结果进行边界的二次划分,提高了聚类的精度。
最后针对本文所要研究的雌激素对前列腺增生影响的基因表达数据,采用改进后的算法对其进行聚类分析,得到表达谱十分相近的分类,为研究雌激素在前列腺增生中的作用和分子机制提供了重要线索。