论文部分内容阅读
准确度量两变量关联是数据挖掘、机器学习的基石。变量对Y-X,无序-无序型关联可用χ2值或互信息I测度,无序-有序型关联可用t值或F值测度,有序-有序型线性关联可用决定系数R2测度。然而,χ2、I、t、F值均为无界统计量,χ2、t和F值关联显著性受自由度影响且当总体分布未知时应用受限;R2虽归一化至[0,1],但不能识别非线性关联。最大信息系数(Maximal information coefficient,MIC)归一化至[0,1],可普适性度量任意类型组合的两变量线性与非线性关联;但其估计算法App MIC的最大网格数经验性约束为Bin(nx×ny)<n0.6,统计功效偏低,在小样本时易导致虚假关联;本实验室前期发展的Chi MIC估计算法以χ2测验控制寻优方向分段数,统计功效有所提高,但未控制均分方向的过多分段。本文提出了MIC优化估计算法BackMIC,并将其应用于基因聚类、特征选择等领域,主要结果如下:MIC优化估计新算法BackMIC。App MIC与Chi MIC算法均以一个方向均分为前提,事实上均分并非估计MIC的充要条件。本文提出了MIC优化估计算法BackMIC,该算法以χ2测验取代Bin(nx×ny)<n0.6约束,并增加回溯策略,最终实现双向控制分段数以及双向不等间隔划分网格。比较三种估计算法,多个模拟数据结果显示,BackMIC算法的网格划分更合理、MIC估计值更准确、统计功效和等价性更优;真实WHO数据集357个变量间的两两关联显示,BackMIC算法可用较少的网格数获得较大的MIC估计值,网格划分的解释性更合理,假阳性率更低,灵敏性更高。基于Pearson与BackMIC的共表达网络构建与癌信息基因识别。加权基因共表达网络(Weighted Gene Co-Expression Network Analysis,WGCNA)是一种利用基因表达数据构造协同表达的基因模块,并根据基因模块与表型的关联性以及基因模块的内连性鉴定疾病信息基因的分析方法。其基本假定是“表达模式相似的基因功能相似”,其实质是R型聚类。经典的WGCNA以Pearson相关系数度量两个基因表达量间的线性相似性或关联(记为WGCNA-P),但无法捕获基因间可能广泛存在的非线性关联。同时,考虑到特定线性情形下BackMIC的统计功效不如Pearson相关系数,本文融合Pearson相关系数与BackMIC发展了加权共表达模块构建新方法WGCNA-P+M。比较两种共表达模块构建方法,两个真实数据集结肠癌GSE44861与肝癌LIHC结果显示:1)以有用性得分(Usefulness,U)评估共表达模块的富集程度,WGCNA-P+M具有更高的U值,意味着基于WGCNA-P+M构建的模块更具生物学意义。2)WGCNA-P将更多的基因判为“无效基因”划入灰色模块,但这些基因的GO功能富集条目多与癌症相关,暗示WGCNA-P因忽略基因间的非线性关联而丢失了部分信息基因。3)WGCNA-P+M获得的Top Hub基因在4种分类器(支持向量机、决策树、随机森林和K近邻)中均有更好的预测表现。4)相异Hub基因的生存分析与文献报道比较显示,WGCNA-P+M获得的Hub基因中存在更多与癌症总体生存率显著相关且被报道与癌症相关的基因。总之,基于WGCNA-P+M的共表达网络更为合理,癌信息基因识别能力更强。基于BackMIC的加权特征选择算法。特征选择是有监督学习的关键,特征间的冗余广泛存在,常用的最小冗余最大相关特征选择算法存在相关性与冗余度不可比、特征子集总冗余度简化为冗余度均值等弊端。本文以BackMIC度量相关性与冗余度,并根据已入选特征与分类变量Y的相关性赋予冗余度不同权重,发展了加权特征选择新算法MICFS-W(BackMIC based Wighted Feture Selection)。MICFS-W与4种常用特征选择算法比较,4个UCI分类数据集、4种分类器的5-折交叉测试结果表明,MICFS-W能以较少的特征获得较高的预测精度,且在所有数据集中具有最高的平均预测精度。基于BackMIC考虑配对互作的最优特征子集选择。生物学数据中单个特征X1、X2与表型变量Y无关,而X1与X2配对互作与Y相关的情形大量存在。前述MICFS-W仅考虑特征冗余给出特征重要性排序,不能自动终止特征引入并直接给出最优特征子集。本文先依|X1-X2|将候选配对互作特征转换为单个新特征,再基于BackMIC与冗余分摊策略,发展了考虑配对互作、可自动终止特征引入的最优特征子集选择新方法BackMIC-Share。三个二分类复杂疾病数据集在4种分类器上的5-折交叉测试结果表明,考虑配对互作的BackMIC-Share平均预测精度优于未考虑配对互作的BackMIC-Share,且文献报道证实入选的互作基因多与肿瘤发生密切相关。特征选择时需考虑特征互作。