论文部分内容阅读
在经济迅猛发展的时代背景下,计算机理论技术、网络通讯技术有了质的飞跃和提高,人们日常生活中获取数据并存储数据的方式变得更加快速、轻易、低廉,随之而来的,是数据量和数据包含的信息量呈指数倍的增加。面对极度膨胀的数据信息量,人们不得不承受“信息爆炸”、“混沌信息空间”、“数据过剩”和“数据坟墓”带来的强大压力,因此传统的关联测度工具已不再适用于当前技术要求。文章通过学习和借鉴国内外学者研究的先进理论成果和经验,根据数据集分批分步输入处理的云计算思想,考虑对数据分批次处理。方法是:先对第一部分数据处理估计结果一,同时学习新知识处理第二部分数据,输出估计结果二;再以copula连接函数为理论基础,设计关联测度连接函数,将已获得的第一部分数据估计结果与新学习知识第二部分数据估计结果联合分析,通过修正已得到的知识估计出更为正确的关联测度,从而给出了一种有效地海量数据关联的分步测度算法。模拟实验也验证了该算法的可行性,结果显示,文章设计的关联算法能够显著提高关联效应测量的效率,并能够有效地解决超海量数据甚至无限数据关联效应的测度问题,为关联测度工具在云计算时代的发展提供了参考思路。文章不是对海量数据的处理从计算机程序算法的角度作普遍介绍,仅仅是希冀以统计学为立足点,偏重于阐述在海量数据与网络技术并行的大环境中相关性分析的统计学问题。