基于屏蔽/汇总技术的数据流处理算法

来源 :复旦大学 | 被引量 : 0次 | 上传用户:hsxgodkiller
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
与传统数据密集型应用相比,诸如网络监控系统等顺序产生的实时数据无法精确存储在数据库中,这种数据序列被称为数据流。数据流的典型特点是,其存储消耗具有潜在的无界性,其产生次序、间隔等统计特性具有不确定性,因此,数据流处理的算法需要具备以下的特点:1)算法复杂度必须是次线性的,输出结果可以是近似的;2)算法能够实时处理数据流输入。线性复杂度算法不能处理数据流的存储、查询和分析处理,因此,通过屏蔽或汇总数据流来控制次线性复杂度存储消耗成为数据流研究的重要内容。本篇论文通过对数据流上频繁项(集)发现、分布数据流并上聚合函数估算和κ-中值点(κ-median)搜寻,研究数据流处理的屏蔽和汇总的基本策略,主要贡献有:1.基于在线屏蔽策略,提出数据流上拒真的频繁项(集)发现,使用O(s-1ln(2δ-1)存储以至少1-δ概率输出频繁项;使用O(K/sln(s-1δ-1))存储可靠挖掘边界频繁项集(频繁项集的浓缩表示);2.基于采样屏蔽策略,提出滤除分布数据流中的冗余和不一致的算法,应用min-wise哈希采样数据流而获取均匀样本集。由于获取的样本集不受分布流中冗余和不一致数据影响,能够准确估计聚合函数值,并进一步应用min—wise哈希方法采样位置流(location streams)来搜寻κ-中值点;3.基于汇总数据流策略,提出数据流上κ-中值点的快速估算算法,应用空间分割的汇总结构控制存储复杂度。不同于位置流中的频繁更新,数据流上κ-中值点需要单遍扫描庞大数目点集来获取近似中值点集。研究发现分割粒度不是影响κ-中值点近似程度的直接原因,避免精细分割产生指数增长的存储消耗问题。本文的研究成果可广泛应用于数据流相关的应用,如金融交易数据的处理、传感器网络数据的分析、以及网络实时监控等领域。
其他文献
现代社会就业竞争激烈,刚出校的大学生基本不具有竞争优势,特别是经济困难学生的就业竞争力更加的薄弱,导致了他们的就业形势更加的严峻。在文中主要就高校经济困难学生就业的弱
医院的党务工作与档案管理关系紧密,档案管理是党务工作的重要凭证和依据,为党务工作提供信息查询、经验总结、公文起草、政策参考等服务;党务工作为档案管理提供资料来源,党务工
介绍国防军工化学计量为军队提供量值传递和溯源服务的现状,分析了军事化学计量面临的主要困难。系统阐述了国防军工化学计量体系构成,并对其化学计量能力进行了分析,提出了为基
人口计划生育部门领导要更新观念,充分认识人口计生档案在人口计划生育工作中的重要作用,把人口计生档案管理工作摆到与宣传教育、政策法规、科技服务、计划生育协会等人口计划
<正>由于多媒体技术是将图、文、声、像等信息通过计算机系统把模拟信号转换成数字信号以利于存储、加工、控制、编辑传送到指定地点再还原,呈现给观众的一种现代化综合
本文通过对我国现阶段消防技术现状和发展状态中的分析,提出了在消防技术的研究活动要紧密结合在现实生活中火灾防治的实践经验,保证研究成果能够得到检验和应用,并在实践中得到
连翘(Forsythia suspensa(Thunb)Vahl)为木犀科(Oleaceae)连翘属植物。其传统用药部位为成熟果实,具有散结消肿,清热解毒之成效。大量的研究表明连翘叶与连翘果实具有相似的化学成
目的:观察脑脊液置换治疗蛛网膜下腔出血临床效果。方法:选择蛛网膜下腔出血患者82例,随机分为观察组和对照组,两组患者均采用常规内科保守治疗,观察组在此基础上加脑脊液置换
本文对天津市十所独立学院档案管理与建设情况进行调查分析,总结其存在的共性问题,提出建设性意见和改进档案管理工作的思路,为独立学院档案内涵式发展提供有力的依据。
目的:胺碘酮对各种快速心律失常治疗的疗效与体会。方法:回顾性分析12例快速型心律失常患者临床资料并静脉给予负荷量,然后维持用量,每天总量不超过1200mg,后根据病情改口服治