论文部分内容阅读
水稻作为我国的重要粮食作物之一,各类病虫害的侵袭已严重影响了其品质和产量,水稻的抗病性研究意义重大。随着基因芯片技术的飞速发展,利用机器学习方法分析水稻基因表达数据,并从中挖掘水稻抗病基因,成为水稻抗病性研究的新手段。与病虫害相关的水稻基因芯片数据多具样本少、维度高、噪声大、冗余度高等特点,要做到抗病基因的精确预测难度较大。本文针对水稻基因表达数据特点,围绕特征选择模型的构建、水稻抗病基因的预测与抗病基因的功能分析展开了研究,主要结果如下:(1)构建了以mRMR算法和改进的Relief算法作为特征预选过滤器,以SVM分类精度作为评估函数的mRMR-Relief-SVM混合特征选择模型。首先,利用mRMR最大相关最小冗余特征选择方法对基因进行重要性排序,基于支持向量机SVM分类器,序贯引入排序基因并依训练集交叉测试精度去冗余,得特征基因子集A;同时,利用改进的Relief特征选择方法得到指定权重以上的排序基因,基于SVM序贯引入排序基因并依训练集交叉测试精度去冗余,得特征基因子集B;最后,合并两组特征基因子集A和B得到最终的特征基因子集C。(2)基于mRMR-Relief-SVM模型预测水稻抗病基因。在GEO数据集中,选取了水稻东格鲁病基因芯片数据GSE16142和水稻条纹病基因芯片数据GSE11025来进行分析。将原始二分类数据集按2:1比例划分为正负样本均衡的训练集和测试集,考虑模型的鲁棒性,对每个数据集都随机抽样3次,即分别得到3组训练集与测试集。将m RMR-Relief-SVM混合模型应用到上述多个数据的独立预测中,结果表明,新模型所选特征基因子集在多个分类器中均取得了较高的预测分类精度。(3)特征基因的生物学意义分析。对所选的特征基因,使用DAVID生物信息数据库进行生物学意义分析。其中,在水稻东格鲁病特征基因中发现有6个基因同抗病性相关,在条纹病特征基因中发现8个基因同抗病性相关。另外,针对同种疾病不同训练集所获特征基因子集不尽相同,使用分子交互网络分析软件Cytoscape以皮尔逊相关系数构建基因互作网络图。结果显示,不同分组的特征基因之间具有较强的相关性,即组间不同的基因之间存在共表达。