论文部分内容阅读
本文作者对定量结构活性相关性研究以及高维微阵列数据分析领域中的一些难点问题进行深入研究后,提出了多种新型的化学计量学算法,并应用于实际体系的研究。本论文的内容主要涉及到以下几个方面:1.提出了一种基于径向基函数网络转换的全局最优的非线性支持向量机算法。该算法通过一个只有一个输入层和一个隐含层的径向基函数网络实现原始变量到特征空间的非线性变换。该变换本质上是实现了原始变量的核变换。用粒子群优化算法协同优化所有参数包括核中心、核宽度以及支持向量机中系数使得按照全模型的性能作出灵活的核变换成为可能。对艾滋病毒Ⅰ型逆转录酶抑制剂与1-苯基苯并咪唑活性的定量构效关系研究结果表明,所提出的算法性能相当稳定,且要优于反向传播神经网络以及传统的非线性支持向量机。2.为克服传统方法构建的分类与回归树中存在的过拟合和局部最优等问题,引入了改进的离散粒子群算法来自适应构建分类与回归树,即同时搜索每个分枝节点中最优的分枝变量和分枝值以及合适的树结构(即:树的复杂性)。该方法集树的生长、修剪于一体,并不需要选择子树。另外,我们还提出了一个新的目标函数来确定合适的树的复杂性和最优的分枝变量及相应的分枝值。将所提出的分类与回归树构建方法用于预测类黄酮衍生物的生物活性和表皮生长因子受体酪氨酸酶抑制剂的抑制活性,结果表明,改进的离散粒子群算法为一种有效的分类与回归树构建方法,能快速地收敛到最优解,所构建的分类与回归树能在很大程度上避免了过拟合问题的产生,由改进的离散粒子群算法构建的分类与回归树要优于传统方法所构建的树。3.在定量构效关系研究中,任何人为对分子结构描述变量的抛弃将带来有用结构信息的损失。为了获得更加灵活的变量选择和建模,以粒子群优化算法为基础,提出了一种变量加权版本的支持向量机用于定量结构活性相关性研究。变量加权的策略旨在不人为删除和保留变量,允许变量的非负加权。采用粒子群优化算法实现非负的变量加权实质上可视为对分子结构描述变量的某种最优化重新刻度。若使用粒子群优化算法同时优化模型其它参数则使得变量加权的支持向量机变成一个无需人为调节参数的全自动建模方法,因此将比传统的变量选择及建模方法有更多的灵活性,且更智能化。对糖原合成酶激酶-3α抑制剂以及碳酸酐酶II抑制剂的研究表明,变量加权支持向量机方法确实能在定量构效关系模型中实现对变量的最优化刻度,保留更多的结构信息,从而帮助得到训练和预测能力更优且智能化的回归模型。4.微阵列技术是从基因尺度进行疾病探究和诊断的关键。为实现高维微阵列数据分析中的基因选择,提出了一种基于不同类别间概率密度函数相似性的变量选择方法用于疾病重要标识基因的鉴定。与多类问题中常用的变量选择方法相比,该方法并不要求所选基因能同时对多数类别都有很好的判别能力,而是为每个感兴趣的类别选择出与之对应的重要标识基因,保证为每个类别均提供足够的判别信息。同时,因为该方法通过计算样本在不同基因上的概率密度函数来衡量各基因对不同类别的判别能力,能充分尊重组间组内样本的真实分布,即使某些重要基因在组内样本中的表达出现系统性差异时也能被很好地选择,这正是传统基因选择方法所欠缺的。此外,为消除不同类别变量组之间的相互干扰,我们进一步提出了分块核变换的支持向量机用于建立微阵列数据的分类模型。实际癌症诊断数据验证结果表明,该变量选择方法与分块核变换的支持向量机的结合,能有效地为各类疾病鉴定出相关的重要标识基因,并提供令人满意的分类准确度。5.致病机理的多样性导致了疾病的多样性,同种疾病经常存在不同的亚型。因此对基因微阵列数据进行变量选择时,若考虑组内样本间的差异性将能有效提高基因选择的可靠性。针对这一思想,我们提出了基于分割区间纯度的变量选择方法用于感兴趣类别标识基因的鉴定。该方法通过搜索组内样本的单模分布区间并评价样本在各单模分割区间的分布状况来衡量各基因对感兴趣类别的判别能力。因为该方法同时考虑了组内样本的单模分布区间,从而能对具有多模分布的重要标识基因进行合理评价,弥补了常用基因选择方法的不足。此外,采用的均值漂移算法在反映样本真实分布的前提下,能并行获取所有类别样本的单模区间,提高了变量选择的效率。对两个实际基因微阵列数据集的分析结果表明,结合分块核变换的支持向量机,该方法能快速、有效地为各类疾病鉴定其重要的标识基因,并实现准确的疾病类别预测。6.高维微阵列数据通常具有变量维数极高,样本量相对极少的特点。分类与回归树作为一种基于大样本统计的分析方法,在样本量较小时模型不稳定。而因疾病多样性带来的组内样本差异表现为样本间的同质性不理想时,更将加剧分类回归树模型不稳定、过拟合的风险。另外,分类回归树对微阵列数据的穷尽搜索也会因为冗余信息的干扰带来过拟合的风险。为解决上述问题,我们采用了单模变换基于分割区间纯度所选变量用于分类回归树建模的策略。变量选择是数据降维的积极措施,同时能大大减少数据中的冗余信息。使用基于分割区间纯度的变量选择方法鉴定基因微阵列数据中的重要标识基因能有效地实现这一目的。对变量的单模变化则意将通过特征提取将变量在组内样本间的“表达单模化”,以提高组内样本的同质性,旨在帮助建立复杂度更低、稳定性更好的分类预测模型。对两个真实癌症微阵列数据集的分析结果表明,与其它方法相比,依据该策略建立的分类与回归树具有更优的泛化能力。