论文部分内容阅读
二十一世纪人类进入了生物时代。随着基因芯片等实验技术的不断发展,生物学相关数据以每15个月翻一番的速度增长——甚至超过了摩尔定律。面对如此海量的数据,人们需要发展出针对大规模数据的分析方法。其中,对于基因表达数据分析方法的研究已成为目前生物学的热点之一。相关的研究成果已被应用于癌症诊断等各个方面。
本文主要从高维形象几何学的角度研究基因表达数据。高维形象几何学的思想是用几何的观点来研究高维空间中的问题;仿生模式识别是高维形象几何学在模式识别中的应用,主要思想是基于“覆盖”来研究模式识别问题,而不同于传统模式识别的基于“划分”的思想。这种方法更接近于人类认识事物的方式。
本文提出新的基因表达数据分析方法。提出一种基于高维形象几何学的特征基因选择方法,主要是利用高维空间中的向量间的角度和距离关系来选择特征基因,并去除特征基因间的相关性。还提出了基于优先度排序的方向基函数神经网络的基因表达分类方法,以及基于仿生模式识别的分类方法。并将这两种方法分别应用于癌症亚型的两类别和多类别分类问题。实验证明,这两种方法与传统模式识别方法相比,有很多方面的优势。对于增长速度很快的基因表达数据来说,它们最重要的优点是对于新知识的学习能力很强,在加入新的样本后不需要完全重新训练,只需要增加神经元的个数,因而很适合应用于基因表达数据分析。