论文部分内容阅读
探索事物之间的因果关系是数据挖掘领域中的重要课题,基于时间序列的因果关系发现是其中的一个重要方向。因果关系的研究成果在社会经济学、地理气象学、生物医学等领域已取得实际应用,对社会生活各方面均具有重要意义。目前大多数因果关系分析方法往往是从完整时间序列的角度来给出变量间因果关系的结论,然而可能存在局部数据关系与结论不符的情况,因为时间序列间因果关系可能随时间发生改变,所以探索时间序列间变化的因果关系是值得研究的重要课题。本文在适用于时间序列的Granger因果关系分析方法的基础上,对时间序列变化的因果关系进行研究,具体工作包括以下3个方面:(1)提出一种基于二类样本可区分性的弱关联时间序列干扰熵筛选法,用以评估时间序列之间的相关性,筛除变量集中与其它变量均为弱关联的时间序列。首先计算包含二类(正、负类)样本特征的混合条件概率;计算正、负类范围内的样本归属概率;基于混合条件概率与归属概率计算混淆概率;最后,通过混淆概率计算二类干扰熵值用于评价某个特征上二类样本的可区分程度。在多变量时间序列下,设计2个变量时间序列转换为二类样本的方法来计算二类干扰熵。干扰熵小,则变量间可区分性大、关联性弱。实验结果表明,新方法在衡量二类样本的可区分程度上优于对比方法,且在多变量时间序列下成功筛除与其它变量均为弱关联的时间序列。(2)提出一种差异区域平衡法探索时间序列变化的因果关系,从数据波动的角度,解决时间序列间因果关系随时间发生变化的问题。对2个变量时间序列,首先,计算当前滑动窗口W的波动程度Sw作为波动界,计算窗口W的前向相邻区域U的波动程度Su。然后,实施前向探索策略:若Su未超过Sw,则实施差异区域平衡检测方案;若Su超过Sw,则实施对称区域平衡检测方案。最后,将窗口W的多次检测结果进行综合后输出。实验表明,在模拟数据集和真实数据集上新算法的综合性能上优于对比方法,具有较高正确率且性能稳定的优点。(3)提出一种滑动窗残差占比法分析时间序列间变化的因果关系,从模型关系变化的角度,解决时间序列间的因果关系随时间发生变化问题。对于2个变量的时间序列,用Granger方法识别滑动窗口内的时间序列因果关系;对滑动窗口Wt和延伸窗口Wt+s、Wt+2s分别建立完全回归模型计算本窗残差占比,再使用窗口Wt的完全模型拟合延伸窗Wt+s、Wt+2s数据计算延伸窗口残差占比;设计滑动窗残差占比识别准则,判断窗口Wt+s是否为关系转换区间;计算关系转换点,修正因果关系区间范围。在多时间序列变量下,结合弱关联时间序列变量的干扰熵筛选法,避免对弱关联变量进行分析。在模拟数据集和真实数据集上的实验结果表明,SWRR方法相较于对比方法在不同的噪声方差下均较具有较高或相近的正确率,且在不同的窗口宽度和移动步长下具有较好的稳定性。