论文部分内容阅读
如何从利用海量的波谱数据挖掘出重要的信息是代谢物组学研究需要解决的重大问题.本文以4种基因型的拟南芥样本为例,C010和C24是亲本基因型,Co10×C24和C24×Co10是两个杂交基因型.通过比较主成分分析、等级聚类分析及BP人工神经网络等三种最具代表性的数据分析方法与小波变换结合前后得到的模式识别结果,探讨将小波变换引入代谢物组学领域生物信息学研究的可行性和实用性.
本文结合小波变换能够在频域进行去噪和信息提取的能力及主成分分析对多元数据降维和样本关系可视化的能力建立了小波变换一主成分分析(WT-PCA)的方法.研究表明小波函数的选取对WT-PCA的结果具有一定影响.利用DB8小波,WT-PCA对4种不同基因型拟南芥样本的区分度达到了90.675﹪,而PCA仅为46.875﹪:PCA对其中的2个杂交基因型基本不能进行区分,而WT-PCA对二者的区分度达到了81.25﹪.
本文结合等级聚类分析的结果客观性强的特点建立了小波变换一等级聚类分析(WT-HCA)的方法.类间距离对HCA的结果具有显著影响.利用最小方差距离得到的结果优于利用最近距离、最远距离和平均距离得到的结果.利用最小方差距离,HCA对4种基因型和2个杂交基因型样本的区分度分别为84.375﹪和75﹪. WT-HCA将结果大大提高,分别达到了90.675﹪和81.25﹪.
本文结合BP人工神经网络非线性学习和自适应性的能力以及小波变换优化输入变量的能力建立了小波变换-BP人工神经网络(WT-BPNN)的有监督模式识别方法.以LOO模式构建带有5个隐含层的WT-BPNN模型对未知样本的预测准确率达到了100﹪,而相同结构的BP人工神经网络模型的预测准确率为81.25﹪.