论文部分内容阅读
对于大数据建模,特征选择与样本选择能够大幅度提升模型预测性能、降低建模时间,是构建分类或回归模型的必要步骤与有效手段。本文从特征获取及筛选、学习机器选择、样本选择多角度优化模型,并用于癌基因芯片数据分析(分类)、药物定量构效关系(Quantitative Structure-Activity Relationship, QSAR)研究(回归)。首先,克服传统F测验、最高得分对家族算法等仅单向比较、忽略互作等缺陷,基于不等次重复双向方差分析,双向比较多个基因,整体考虑了多基因与表型互作,经综合加权排序与去冗余获取信息基因;结合转导推理,构建了无需训练的直接分类器。10个多分类肿瘤表达数据的信息基因选择与独立预测多角度比较结果表明:1)新方法以较少的信息基因获得了优于参比模型的平均预测精度(92.06%);2)优于最高得分系列与基于相关性的基因选择算法;3)与支持向量分类相当,优于线性逻辑斯蒂回归与朴素贝叶斯。对白血病与乳腺癌数据,实施多轮基因选择并以基因本体分析生物学通路,发现若干重要生物学通路及致病基因。其次,针对方差分析不适用于回归数据特征选择的弊端,将二元矩阵混排过滤器(Binary Matrix Shuffling Filter, BMSF)用于RPMI8402与P388两个细胞系的抗肿瘤药物QSAR研究。以量子化学计算软件PCLIENT获取2923个高维分子描述符,以BMSF实施特征筛选,以支持向量回归(Support Vector Regression, SVR)建模预测,结果表明:基于文献描述符的SVR模型优于多元线性回归、逐步线性回归、偏最小二乘回归,与人工神经网络相当;对高维描述符,经特征筛选分别保留11个特征,基于保留描述符的SVR模型优于其他参比模型,且非线性回归极显著,多数保留描述符的单因子重要性达显著,对药物活性的效应分析等为高活性抗肿瘤药物设计提供思路。进一步,同时考虑特征筛选与样本选择,将BMSF与地统计学半变异函数用于血管紧张素转化酶抑制剂与人类白细胞抗原Ⅰ型分子结合肽QSAR建模。以531个氨基酸理化性质表征肽序列,以BMSF筛选特征,以地统计学确定公共变程,对每个待测样本,从训练集中选出小于公共变程的K个近邻样本,以SVR实施个性化预测,结果表明:对1593与4779个高维描述符,经特征筛选后5次样本划分中分别平均保留15.4与15.8个特征,独立预测精度Q2pred分别为0.982与0.806,均优于文献参比及单向选择模型。分析了多套描述符子集的残基分布与偏好,为设计高活性肽提供理论指导。本文方法在生物标记物筛选、模式分类、分子活性预测等领域有较广泛应用前景。