最大信息系数优化算法及在生物信息学中的应用

来源 :湖南农业大学 | 被引量 : 0次 | 上传用户:sunrise12345678
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
准确度量两变量关联是数据挖掘、机器学习的基石。变量对Y-X,无序-无序型关联可用χ2值或互信息I测度,无序-有序型关联可用t值或F值测度,有序-有序型线性关联可用决定系数R2测度。然而,χ2、I、t、F值均为无界统计量,χ2、t和F值关联显著性受自由度影响且当总体分布未知时应用受限;R2虽归一化至[0,1],但不能识别非线性关联。最大信息系数(Maximal information coefficient,MIC)归一化至[0,1],可普适性度量任意类型组合的两变量线性与非线性关联;但其估计算法App MIC的最大网格数经验性约束为Bin(nx×ny)<n0.6,统计功效偏低,在小样本时易导致虚假关联;本实验室前期发展的Chi MIC估计算法以χ2测验控制寻优方向分段数,统计功效有所提高,但未控制均分方向的过多分段。本文提出了MIC优化估计算法BackMIC,并将其应用于基因聚类、特征选择等领域,主要结果如下:MIC优化估计新算法BackMIC。App MIC与Chi MIC算法均以一个方向均分为前提,事实上均分并非估计MIC的充要条件。本文提出了MIC优化估计算法BackMIC,该算法以χ2测验取代Bin(nx×ny)<n0.6约束,并增加回溯策略,最终实现双向控制分段数以及双向不等间隔划分网格。比较三种估计算法,多个模拟数据结果显示,BackMIC算法的网格划分更合理、MIC估计值更准确、统计功效和等价性更优;真实WHO数据集357个变量间的两两关联显示,BackMIC算法可用较少的网格数获得较大的MIC估计值,网格划分的解释性更合理,假阳性率更低,灵敏性更高。基于Pearson与BackMIC的共表达网络构建与癌信息基因识别。加权基因共表达网络(Weighted Gene Co-Expression Network Analysis,WGCNA)是一种利用基因表达数据构造协同表达的基因模块,并根据基因模块与表型的关联性以及基因模块的内连性鉴定疾病信息基因的分析方法。其基本假定是“表达模式相似的基因功能相似”,其实质是R型聚类。经典的WGCNA以Pearson相关系数度量两个基因表达量间的线性相似性或关联(记为WGCNA-P),但无法捕获基因间可能广泛存在的非线性关联。同时,考虑到特定线性情形下BackMIC的统计功效不如Pearson相关系数,本文融合Pearson相关系数与BackMIC发展了加权共表达模块构建新方法WGCNA-P+M。比较两种共表达模块构建方法,两个真实数据集结肠癌GSE44861与肝癌LIHC结果显示:1)以有用性得分(Usefulness,U)评估共表达模块的富集程度,WGCNA-P+M具有更高的U值,意味着基于WGCNA-P+M构建的模块更具生物学意义。2)WGCNA-P将更多的基因判为“无效基因”划入灰色模块,但这些基因的GO功能富集条目多与癌症相关,暗示WGCNA-P因忽略基因间的非线性关联而丢失了部分信息基因。3)WGCNA-P+M获得的Top Hub基因在4种分类器(支持向量机、决策树、随机森林和K近邻)中均有更好的预测表现。4)相异Hub基因的生存分析与文献报道比较显示,WGCNA-P+M获得的Hub基因中存在更多与癌症总体生存率显著相关且被报道与癌症相关的基因。总之,基于WGCNA-P+M的共表达网络更为合理,癌信息基因识别能力更强。基于BackMIC的加权特征选择算法。特征选择是有监督学习的关键,特征间的冗余广泛存在,常用的最小冗余最大相关特征选择算法存在相关性与冗余度不可比、特征子集总冗余度简化为冗余度均值等弊端。本文以BackMIC度量相关性与冗余度,并根据已入选特征与分类变量Y的相关性赋予冗余度不同权重,发展了加权特征选择新算法MICFS-W(BackMIC based Wighted Feture Selection)。MICFS-W与4种常用特征选择算法比较,4个UCI分类数据集、4种分类器的5-折交叉测试结果表明,MICFS-W能以较少的特征获得较高的预测精度,且在所有数据集中具有最高的平均预测精度。基于BackMIC考虑配对互作的最优特征子集选择。生物学数据中单个特征X1、X2与表型变量Y无关,而X1与X2配对互作与Y相关的情形大量存在。前述MICFS-W仅考虑特征冗余给出特征重要性排序,不能自动终止特征引入并直接给出最优特征子集。本文先依|X1-X2|将候选配对互作特征转换为单个新特征,再基于BackMIC与冗余分摊策略,发展了考虑配对互作、可自动终止特征引入的最优特征子集选择新方法BackMIC-Share。三个二分类复杂疾病数据集在4种分类器上的5-折交叉测试结果表明,考虑配对互作的BackMIC-Share平均预测精度优于未考虑配对互作的BackMIC-Share,且文献报道证实入选的互作基因多与肿瘤发生密切相关。特征选择时需考虑特征互作。
其他文献
教育部2017年发出基于核心素养教学改革的先声,并于《普通高中语文课程标准(2017年版)》中明确了语文核心素养的四个维度:"语言建构与运用,思维发展与提升,审美鉴赏与创造,文化传承与理解。"虽然是高中"课标"明确提出,但语文核心素养不是在高中阶段突然形成的,而是在小学和初中阶段逐步培养、逐渐稳定的。一、用"学历案"助力任务群学习2017年以来,吉林省第二实验学校一直致力于研究让核心素养落地
期刊
指向核心素养的语文教学变革已然走向前端。如何让学生通过学习提升语文核心素养,逐步形成具有语文特质的关键能力、必备品格与价值观念?本文从专业学习方案设计的角度进行了一些从理念到行动的探索。
一、语文学历案对传统教案学习活动设计的改进语文学历案基于学生立场,呈现学习目标达成过程,不仅促进学生"学习",而且帮助学生"学会",促进深度学习。学历案设计的学习活动与传统的教案相比,有几个显著特征:1.全员参与。学历案的学习活动基于专题学
期刊
"十四五"开局之年,教育部相继出台文件,对抓好中小学生作业、睡眠、手机、读物、体质等"五项管理"作出部署。"五项管理"中,作业管理是落实"双减"的核心,也是能否做好其他四项管理的关键。为进一步规范学校作业管理,成都市温江区光华实验小学紧紧围绕"轻负高质"这个作业管理的核心,探索出"融—研—评—展"的作业策略,让作业成为学生独立学习的场域,促进学生全面发展。
期刊
教师教了,但学生不会,问题出在哪?核心素养时代,我们不仅关注教师教了什么,更关注学生何以学会。本书作为《教案的革命:基于课程标准的学历案》的升级版,不仅是从"课时"到"单元"的扩容,更是整合论教学的新探索。这种整合旨在为核心素养目标的实现提供可行路径,旨在为深度教学的实践提供逻辑支撑。
期刊
以江苏南京溧水区的一个小镇为调研点,借助访谈法对覆盖该镇区全域的一个国家级农业技术产业示范区进行案例研究,以三螺旋为理论指导并从中提炼出分析框架,通过分析发现:在平台建设初期政府一直处于主导地位;由于服务型政府理念的兴起和理性"经济人"假设推动政府功能发生延展,"公共服务者"和"公共投资商"角色形态开始显露。最后,政府与其他主体互构形成成熟的功能耦合网络,带领园区对整个社会实现递归效应。
柑橘果胶是从柑橘果皮中提取的一种果胶,相对分子质量较大,对人体没有非常有效的功用,低分子质量柑橘果胶是将天然柑橘果胶经过改性处理后的果胶,是一种新兴的生物活性多糖。为了提高柑橘果胶的利用价值,本文采用100℃-130℃的亚临界水来降解柑橘果胶使之转化为低分子质量果胶,研究改性前后果胶组分、结构的变化,并结合流变学、降解动力学的研究来分析其作用机制。在此基础上,从抗氧化活性、抗肿瘤活性、免疫调节活性
羧甲基赖氨酸(Nε-carboxymethyllysine,CML)是美拉德反应中晚期糖基化终末产物(Advanced Glycation End-products,AGEs)的重要成分。CML通过食品介质进入人体后,可积聚于多个不同的组织器官中,达到一定数量后,会直接影响组织器官的功能,导致机体病理的变化。本论文从建立CML的检测方法入手,研究了CML在食品中的形成规律和水果多酚对其抑制的作用机
黑茶既可通过后熟作用提升品质,也可能提升健康价值。良好的贮藏条件和一定贮藏年份的黑茶通常被认为具有更好的品饮属性与健康属性,因而市场上经常出现“以新充老”、“以次充好”的不良现象,扰乱市场秩序,并导致大量的黑茶长期处于贮藏期,并未进入消费市场,不利于维护茶叶产销平衡。因此,如何科学地辨别黑茶的仓储陈化年限,促进陈年黑茶的快速流通与消费,保障生产和消费者权益、规范市场监管,是保障黑茶产业健康发展急需
猪圆环病毒2型(Porcine circovirus type 2,PCV2)是导致猪圆环病毒相关性疾病(Porcine circovirus associated disease,PCVAD)的重要病原体。肠道炎症是PCV2引起的一个重要的临床表现;肠道感染被认为是PCV2感染的重要途径;近年来研究发现非编码RNA(miRNA、lncRNA、circRNA)在凋亡及炎症病理反应中有重要的调控作用