最大信息系数的算法分析及改进

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:sjtulzhff
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在如今这个信息爆炸的时代,海量数据已经成为当今世界最显著的特征之一,研究数据之间的关联性成为科学界的研究热点。为了衡量事物之间是否关联以及如何关联,统计相关性分析应运而生。其中使用较为广泛的有皮尔逊(Pearson)系数,斯皮尔曼系数(Spearman)和肯德尔(Kendall)系数等,但是这些相关性分析方法由于自身的局限性,并不能对广泛的关系类型做出检测。因此,2011年Reshef等人引入了一种新的相关性分析方法——最大信息系数(the maximal information coefficient,MIC),该方法一经提出便在科学界引起了广泛的讨论。最大信息系数相较其他的统计量而言,拥有两个优良性质——广泛性和均匀性。但是作为计算机密集型(computer-intensive)方法,最大信息系数的精确解计算难度非常大,为了能够得到变量之间最大信息系数的近似解,Reshef等人提出了两变量MIC近似算法。本文主要针对Reshef等人提出的两变量最大信息系数的定义及近似算法进行分析,并对其存在的缺陷不足做出改进。首先,结合相关文献,本文分析研究了统计相关性领域的背景及国内外研究现状,着重关注最大信息系数的相关研究,包括两变量最大信息系数的定义,现有的近似算法及其两个优良性质,并与其他流行的相关性分析方法进行比较,进一步加深对最大信息系数的认识。其次,通过进一步的研究与分析,本文引入了“粒度”的概念来解释最大信息系数方法的本质,并借此来说明最大信息系数计算过程中归一化的实质以及计算最大信息系数的算法核心--网格划分的实质并给出网格划分的原则,同时,通过实验分析,给出最大信息系数的两个优良性质——广泛性和均匀性的可视化,更进一步加强对于最大信息系数的理解。然后,针对现有的两变量MIC近似算法在大数据集下计算效率低下的不足,本文结合K-Means聚类算法提出了适应海量数据集的两变量MIC聚类算法,将两变量最大信息系数计算算法的时间复杂度从O(n2.4)降到了O(n1.6,提高了计算效率,并设计实验对该算法的广泛性和均匀性进行了验证,验证了该算法的有效性。最后,针对现有的两变量MIC近似算法无法计算单变量和多变量之间最大信息系数的不足,本文将现有的两变量最大信息系数的定义拓展到了多变量层面,给出了相应的单变量和多变量之间最大信息系数的定义式,并提出了能够计算单变量和多变量之间最大信息系数的多变量MIC近似算法,同时设计实验对该算法的广泛性和均匀性的验证,使在大数据集中挖掘单变量和多变量之间的最大信息系数成为了可能。
其他文献
为了研究温度对乙醇氧化产生乙醛排放的影响,配置了乙醇标准气,并将流反应器置于发动机排气管中;在变温和恒温环境下,利用发动机排气温度环境和气相色谱氦离子化检测器的快速
中国新型政党制度是我国政治制度的重要组成部分,是展现中国智慧和中国方案的名片。提高中国新型政党制度国际话语权是彰显我国政党制度特色优势的要求,对提升国家软实力,为
<正> 毛泽东同志一九六一年写的《七律·答友人》一诗、形象绚丽壮美,境界深远宏阔,想象奇特,感情浓挚,令人有味之无极、百读不厌之感。这首诗发表后,一些诗人、学者,热情为
医院廉政文化建设是针对医院职工关于廉政知识、规范、行为等方面的评价,是一种以廉政思想为内涵的文化形式。医疗行业的腐败问题成为当前人们重点关注的话题,加强医院廉政文
北京和上海分别作为长三角、京津冀经济圈的核心城市,近年来对两大城市经济辐射作用的争议日益突出。通过统计数据分析,得出上海对长三角的经济辐射作用强于北京对京津冀的辐
高中課本第二册17頁,佈置了一氧化氮氧化及二氧化氮溶解的演示实驗:收集一氧化氮在長玻筒中,放入空气,观察棕色二氧化氮的生成,再倒置水中,由於二氧化氮的溶解,水就徐徐升入
期刊
<正>答辩时间:2017年5月本研究既是一项基于社会发展对于语言的研究,也是一项基于语言变化对于社会的考察;既是一项基于新技术的实验过程,也是一项基于海量数据的解释分析。
川军爱国将领郭勋祺抗日事迹唐维华郭勋祺将军的夫人罗显功所捐献的“警枕”,日军战刀,郭沫若、谢无量补书题诗、她本人身着军装的历史照片等一组文物资料,在1985年《重庆抗战文物资
针对ATS开发过程中UUT测试需求缺乏标准规范的信息描述方法,致使ATS软件复用性、移植性差等问题日益突出的现状,参考有关国际标准,建立了UUT测试概念模型和基于XML的UUT测试