论文部分内容阅读
作为一种特殊的数据形态,数据流产生于广泛的应用领域,如传感器监测、移动对象跟踪、网络日志以及股票交易等。在数据流环境中,数据持续不断地快速到达,对这类数据无法存储全部历史记录,对其挖掘分析常需要设计单遍扫描的快速算法,这给数据流挖掘带来极大挑战。数据流应用的广泛性和研究的挑战性共同吸引了大量学者的关注,使其成为近年来一个研究热点。以往研究表明,数据流在演化过程中常常呈现出显著的相关性,且存在固有的低维结构。作为一种功能强大的多元统计方法,典型相关分析(canonical correlation analysis,CCA)既能检测两组数据间的相关性,又能提取其低维特征。因此多维数据流CCA作为数据流领域的新兴之秀,正成为一个前沿热点课题。学者们在前期研究中产出了一些有意义的探索结果,如基于低阶近似理论、不等概抽样、奇异值分解以及基于GPU的并行处理架构等技术或方法所提出的各种多维数据流CCA算法等。这些成果促进了多维数据流CCA的发展和应用,然而它们却无法满足一些新兴领域的需求,如实时应用环境下数据流相关性的快速跟踪、动态数据场环境下数据流低维特征的提取、面向大数据流的CCA快速求解、CCA在多维数据流隐私保护领域的应用等。因此,对CCA进行面向多维数据流的模型扩展和应用推广具有极高的理论研究价值和现实应用意义。本文就此展开如下几个方面的研究工作:(1)传统CCA方法不具有状态维持能力,本质上不是持续更新的快速算法,这影响了 CCA在实时应用环境中快速跟踪多维数据流之间的相关性及其低维结构的效率。针对此问题,提出一种基于秩2更新理论的多维数据流典型相关快速跟踪算法。该算法基于秩2更新的持续更新和并行求解能力,通过并行方式持续更新样本协方差矩阵的特征子空间,进而实现多维数据流典型相关的快速跟踪。该算法能维持前一步的状态,具有与容量无关的低复杂度。实验结果表明,所提算法具有较好的稳定性、较高的计算效率和精度,能有效实现典型相关系数和典型相关变量的持续快速更新。(2)传统CCA方法在提取数据的低维特征时未考虑数据间的相互作用,这致使数据场环境下数据的低维特征由于数据的相互作用而呈现出的某些独特性质未能得以揭示。针对此问题,提出一种基于酶数值P系统的动态数据场CCA方法。该方法将数据之间的相互作用纳入其相关性求解中。本研究形式化描述了数据场CCA的表达式,并给出解的推导,开拓了一种崭新的CCA模型。这种新的CCA扩展模型提取的特征具有良好的分布特性,此特性使其具有较好的类边界辨识能力。为满足数据流快速处理的要求,本研究还基于自然计算领域最新的研究成果,即酶数值P系统,引入转移P系统的字符变量和进化规则对酶数值P系统加以改进,以提高后者的流程可控性,进而设计一个用于数据场势值快速求解的酶数值P系统,该P系统的极大并行求解能力大幅提高了数据场CCA的计算效率。(3)数据流是最典型的一类大数据。传统CCA方法在面临大数据PB级规模以及稀疏价值等特性时已不再适应。针对此问题,基于云理论提出一种面向大数据流的CCA方法。该方法首先设计一种面向大数据挖掘的分布式云架构,作为大数据存储和计算的基础;其次根据多维逆向正态云发生器在各云端产生端点云,并据此由多维云合并运算产生中心云滴作为原大数据的不确定性复原小样本;最后在容量较小的中心云滴群上进行CCA操作,大幅提高了 CCA的执行效率。为提高云的产生效率,提出启发式的端点云生成策略,进而对多维逆向正态云发生器进行改进。作为端点云启发式生成策略的关键,提出云的部分增量更新式,以加速不重复随机采样时迭代终止条件的求解速度;为度量不同云之间的差异,提出云差异的弦度量以及基于子空间的云差异度量方法。此外,为克服经典云合并运算每次仅能完成一对云加法运算的不足,还提出一种一次性快速合并多个多维云的云合并方法。实验结果表明,该方法以增加系统资源为代价,可获得一定的计算精度和较快的处理速度,且从相关性这一侧面揭示了大数据的稀疏价值特性。(4)凭借其强大功能,CCA在悠久的历史长河中被持续应用到各种崭新领域。然而,CCA在数据流隐私保护领域的应用鲜有研究者涉足。现存的、为数不多的个性化轨迹隐私保护方法未考虑不同隐私需求的轨迹之间的隐含关系,这可能导致轨迹数据质量的降低。针对位置流隐私保护的个性化需求问题,基于CCA提出一种个性化轨迹隐私保护算法。该算法对数据产生者认为不敏感的轨迹直接发布,而仅对数据产生者认为敏感的轨迹施以隐私保护操作,较好地尊重了数据产生者的隐私保护意愿;此外,该方法通过引入CCA隐变量模型,充分利用不敏感轨迹和敏感轨迹间的隐含关系,这有效提高了隐私保护后轨迹的质量。实验结果表明,该算法在轨迹数目为中小规模的个性化轨迹隐私保护情境下能达到较高效率,算法的隐私保护能力在具有最低保障的前提下呈现出跳跃特性,且获得的位置流具有较好的LBS服务质量。