论文部分内容阅读
随着计算机技术与各行各业的融合,人们的生产生活中不断产生大量的数据,而且数据的规模也成爆炸式增长。传统的统计方法虽在理论上可行,但实际操作上会带来很多问题,如计算量过大导致时间的消耗等。符号数据分析在描述数据和缩减数据规模方面很有优势。在这种背景下,本文研究了区间型符号数据的回归方法。论文首先介绍了研究背景、国内外研究现状,然后对符号数据做了具体的介绍。主要介绍了区间型符号数据、多值变量型符号数据、模态多值型符号数据、直方图型区间型数据,并且在每一类数据下做了具体的说明。文章还介绍了逻辑独立、描述向量等一些基本概念,在这些概念的基础上,介绍了多值型符号数据和区间型符号数据的一些统计量的计算。论文主要针对区间型符号数据进行了回归方法的研究。介绍了 MinMax方法、CM方法、CRM方法。为了对这些回归方法进行比较,文章介绍了一种蒙特卡洛数值实验方案,通过构造两类数据集,然后在这两类数据集上对不同的方法建立回归模型。两类数据集的分类依据主要是考虑区间中点与区间范围是否有关来进行构造。结果表明和CRM方法相比,CM方法由于没有考虑区间范围的信息,会产生较大的估计误差,而且CM方法在两类数据集上均出现因变量区间下界估计大于上界估计的情况。CRM方法仅在区间中点与区间范围有关的数据集上会出现这种情况。为了保证区间下界估计小于上界估计,文章介绍了约束CRM方法(CCRM方法)。该方法通过对参数向量进行约束来解决这一问题。论文还介绍了一种数值解法来求解约束CRM问题,该方法主要通过不断迭代使负值参数向正值靠拢。之后文章在两类数据集上将CCRM方法与CRM方法进行了比较。结果表明,约束CRM方法能够有效地解决区间下界估计大于上界估计的问题,并且产生了较小的估计误差。最后文章在真实数据上展示了 MinMax方法、CM方法、CRM方法、CCRM方法的具体运用,并进行了比较分析。