面向多维数据流的典型相关分析若干问题研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户：jkenclly

【摘要】

：

作为一种特殊的数据形态,数据流产生于广泛的应用领域,如传感器监测、移动对象跟踪、网络日志以及股票交易等。在数据流环境中,数据持续不断地快速到达,对这类数据无法存储全

【作者】

：

李文平

【出处】

：

哈尔滨工程大学

【发表日期】

：

2014年期

【关键词】

：

数据流典型相关分析大数据隐私保护膜计算云理论

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

作为一种特殊的数据形态,数据流产生于广泛的应用领域,如传感器监测、移动对象跟踪、网络日志以及股票交易等。在数据流环境中,数据持续不断地快速到达,对这类数据无法存储全部历史记录,对其挖掘分析常需要设计单遍扫描的快速算法,这给数据流挖掘带来极大挑战。数据流应用的广泛性和研究的挑战性共同吸引了大量学者的关注,使其成为近年来一个研究热点。以往研究表明,数据流在演化过程中常常呈现出显著的相关性,且存在固有的低维结构。作为一种功能强大的多元统计方法,典型相关分析(canonical correlation analysis,CCA)既能检测两组数据间的相关性,又能提取其低维特征。因此多维数据流CCA作为数据流领域的新兴之秀,正成为一个前沿热点课题。学者们在前期研究中产出了一些有意义的探索结果,如基于低阶近似理论、不等概抽样、奇异值分解以及基于GPU的并行处理架构等技术或方法所提出的各种多维数据流CCA算法等。这些成果促进了多维数据流CCA的发展和应用,然而它们却无法满足一些新兴领域的需求,如实时应用环境下数据流相关性的快速跟踪、动态数据场环境下数据流低维特征的提取、面向大数据流的CCA快速求解、CCA在多维数据流隐私保护领域的应用等。因此,对CCA进行面向多维数据流的模型扩展和应用推广具有极高的理论研究价值和现实应用意义。本文就此展开如下几个方面的研究工作:(1)传统CCA方法不具有状态维持能力,本质上不是持续更新的快速算法,这影响了 CCA在实时应用环境中快速跟踪多维数据流之间的相关性及其低维结构的效率。针对此问题,提出一种基于秩2更新理论的多维数据流典型相关快速跟踪算法。该算法基于秩2更新的持续更新和并行求解能力,通过并行方式持续更新样本协方差矩阵的特征子空间,进而实现多维数据流典型相关的快速跟踪。该算法能维持前一步的状态,具有与容量无关的低复杂度。实验结果表明,所提算法具有较好的稳定性、较高的计算效率和精度,能有效实现典型相关系数和典型相关变量的持续快速更新。(2)传统CCA方法在提取数据的低维特征时未考虑数据间的相互作用,这致使数据场环境下数据的低维特征由于数据的相互作用而呈现出的某些独特性质未能得以揭示。针对此问题,提出一种基于酶数值P系统的动态数据场CCA方法。该方法将数据之间的相互作用纳入其相关性求解中。本研究形式化描述了数据场CCA的表达式,并给出解的推导,开拓了一种崭新的CCA模型。这种新的CCA扩展模型提取的特征具有良好的分布特性,此特性使其具有较好的类边界辨识能力。为满足数据流快速处理的要求,本研究还基于自然计算领域最新的研究成果,即酶数值P系统,引入转移P系统的字符变量和进化规则对酶数值P系统加以改进,以提高后者的流程可控性,进而设计一个用于数据场势值快速求解的酶数值P系统,该P系统的极大并行求解能力大幅提高了数据场CCA的计算效率。(3)数据流是最典型的一类大数据。传统CCA方法在面临大数据PB级规模以及稀疏价值等特性时已不再适应。针对此问题,基于云理论提出一种面向大数据流的CCA方法。该方法首先设计一种面向大数据挖掘的分布式云架构,作为大数据存储和计算的基础;其次根据多维逆向正态云发生器在各云端产生端点云,并据此由多维云合并运算产生中心云滴作为原大数据的不确定性复原小样本;最后在容量较小的中心云滴群上进行CCA操作,大幅提高了 CCA的执行效率。为提高云的产生效率,提出启发式的端点云生成策略,进而对多维逆向正态云发生器进行改进。作为端点云启发式生成策略的关键,提出云的部分增量更新式,以加速不重复随机采样时迭代终止条件的求解速度;为度量不同云之间的差异,提出云差异的弦度量以及基于子空间的云差异度量方法。此外,为克服经典云合并运算每次仅能完成一对云加法运算的不足,还提出一种一次性快速合并多个多维云的云合并方法。实验结果表明,该方法以增加系统资源为代价,可获得一定的计算精度和较快的处理速度,且从相关性这一侧面揭示了大数据的稀疏价值特性。(4)凭借其强大功能,CCA在悠久的历史长河中被持续应用到各种崭新领域。然而,CCA在数据流隐私保护领域的应用鲜有研究者涉足。现存的、为数不多的个性化轨迹隐私保护方法未考虑不同隐私需求的轨迹之间的隐含关系,这可能导致轨迹数据质量的降低。针对位置流隐私保护的个性化需求问题,基于CCA提出一种个性化轨迹隐私保护算法。该算法对数据产生者认为不敏感的轨迹直接发布,而仅对数据产生者认为敏感的轨迹施以隐私保护操作,较好地尊重了数据产生者的隐私保护意愿;此外,该方法通过引入CCA隐变量模型,充分利用不敏感轨迹和敏感轨迹间的隐含关系,这有效提高了隐私保护后轨迹的质量。实验结果表明,该算法在轨迹数目为中小规模的个性化轨迹隐私保护情境下能达到较高效率,算法的隐私保护能力在具有最低保障的前提下呈现出跳跃特性,且获得的位置流具有较好的LBS服务质量。

其他文献

洛建80台压路机出口斯里兰卡大单签订

日前，洛建80台压路机出口斯里兰卡大单尘埃落定，洛建之所以从众多企业中脱颖而出．主要得益于在斯里兰卡良好的用户基础．及拥有型号最全的压路机产品。

期刊

斯里兰卡压路机出口

关于企业财务管理评价涵义的思考

［摘要］文章对企业财务管理的活动内容和评价在管理循环中的主要作用进行了分析，　　探索性地概括了企业财务管理评价的涵义，并厘清了企业管理评价和企业财务管理评价两者之间的关系，为开展企业财务管理评价的研究打下坚实基础。　　［关键词］企业财务管理评价企业财务管理评价企业管理评价　　　　随着国际金融危机的扩散和蔓延，我国企业受到的消极影响日益加深。部分企业因为受市场需求衰竭、各国贸易保护主义抬头

期刊

企业财务管理评价企业财务管理评价企业管理评价

基于医学图像的关节软骨分布测量及骨自动分割关键技术

医学成像技术和计算机技术紧密结合使计算机医学影像辅助技术在骨关节炎等疾病的诊断和治疗等方面发挥巨大作用。高分辨率和高信噪比的MR及CT骨关节医学图像中含有大量图像的

学位

多层次自动分割法线方向校正体素跟踪校正基于误差模型三维厚度校正B样条DGVF蛇模型

面向开源社区的开发者群体行为分析方法

开源软件开发基于自组织、松耦合的开源社区,开发者分布在全球不同位置,进行相对独立的软件开发,开发者的立项、讨论、评价、修改、测试等行为,主要是通过互联网相互沟通、讨

学位

复杂网络开发者开源软件群体软件工程

子宫动脉化疗灌注加栓塞联合宫腔镜治疗特殊部位妊娠3例报告

1病历摘要例1：女,27岁,孕1产0,停经1个月余,彩超提示：宫颈管内见长10mm妊娠囊,内见卵黄囊及胎芽、胎心。血清人绒毛膜促性腺激素（血HCG）：5954.5 mIU/mL。临床诊断：宫颈妊娠。行双侧

期刊

子宫动脉化疗灌注加栓塞宫腔镜特殊部位妊娠

基于随机投影数据扰动的隐私保护技术研究

近年来,信息处理技术和存储技术快速发展,使得相关机构可以收集大量的数据用于数据挖掘。在数据挖掘的过程中,可能需要多方数据所有者发布或共享其拥有的数据,然而,直接发布

学位

数据发布隐私保护数据扰动随机投影稀疏度

浅论国际货币体系改革

一、国际货币体系改革的主要方案和建议　　1.创立国际商品储备体系　　由于许多发展中国家受初级产品和原材料价格剧烈波动的影响,国际收支状况经常恶化。一些经济学家提出了创立以商品为基础的国际储备货币,以解决初级产品价格波动和国际储备制度不稳定的问题。　　主要内容包括:(1)建立一个世界性的中央银行,发行新的国际货币单位,其价值由一个选定的商品篮子来决定,商品篮子由一些基本的国际贸易产品,特别是初级产

期刊

国际货币体系改革国际收支状况国际储备货币初级产品价格波动原材料价格发展中国家储备体系

河西地区甘草主要病虫草害及其防治技术

甘草（Glycyrrhiza uralensis Fisch.）又名美草、蜜草,为豆科多年生草本植物[1],以根或根茎入药,性平、味甜,有清热解毒、润肺止咳、补脾益气、调和诸药的功效,是常用的大宗药材

期刊

河西地区危害症状病虫草害植株生长

雷州半岛自然资源利用条件与建立持续农业构想

可持续农业是中国对世纪国民经济可持续发展的组成部分，其内涵即农业的持续产出应建立在对资源的优化利用、生态系统动态平衡及现代技术体系支持之下。雷州半岛的特殊区位决定

期刊

自然资源持续农业区域开发

如何在初中数学教学中渗透数学思想和方法

《新课程标准》明确指出,初中阶段的数学教学目标是使学生掌握一定的数学知识,具备一定用数学思维进行思考的能力,学会数学思想和数学方法,提升学生对于数学的学习兴趣。如果

期刊

初中数学数学思想数学方法策略

面向多维数据流的典型相关分析若干问题研究

与本文相关的学术论文