论文部分内容阅读
利用基因芯片,可以并行观察某一生命现象中成千上万的基因的动态表达水平,使得人们能够在基因组水平上以系统的、全局的观念去研究生命现象及其本质.基因芯片技术已经应用到肿瘤分型、肿瘤分类、基因功能研究、基因之间调控网络构建以及药物靶位识别等等许多方面.从本质上讲,通过基因芯片技术实验所直接获得的是一个基因表达谱数据集,任何对基因芯片技术的实际应用都是通过对基因表达谱数据的生物信息学处理来实现的.该文正是在这样一个背景下,研究适于基因表达谱数据的信息学数据处理方法,包括对肿瘤分型、分类的研究以及对基因功能的聚类分析等.该文首先讨论了基于小波分析的降噪方法,取得了非常有效的预处理效果.随后,该文提出了将离散小波变换技术与传统的相关系数排序法相结合的特征提取方案.实验和对比分析表明,该方法可以稳定的提高正确识别率,性能稳定,对提取的特征个数不敏感,鲁棒性好,并且可以和各种后端分类器配合使用.在特征提取之后,该文讨论了两个紧密相关的应用领域:肿瘤分类和基因聚类.在肿瘤分类中,主要研究了加权判决法和基于人工神经网络的方法.在人工神经网络方法中,对比了径向基函数方法、BP网络法和概率神经网络方法.实验结果表明,概率神经网络作为分类器,识别率高,训练时间短,鲁棒性好.可以得出这样的结论:针对该文的研究对象,基于小波分析的特征提取方法和概率神经网络分类器相结合的分类系统,总体性能优于大部分传统的方法.该分类系统在对Alon的结肠癌数据集、Bhattacharjee的腺癌数据集和Golub的白血病数据集进行处理时,分类性能均达到或超过了公开发表的实验结果.在研究基因的聚类分析过程中,实现并对比了以下几种方法:层次聚类法、k均值法、模糊C均值法和自组织特征映射神经网络方法.利用聚类方法对三个公共数据集分别进行处理和分析,实现了对相似功能基因组的聚类,聚类结果可以辅助病理学家进行进一步的有关基因功能和药物靶基因的研究.