面向海量数据实时分析的近似查询算法研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:feit0679
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代科技背景下,各种信息系统生成的数据量快速增长,产生的速率也越来越快,生成大量流式数据,如何快速处理这些海量数据成为当前的研究热点。数据流属于新的数据形式,具备动态性、快速变化性、无限性等特点,传统数据处理技术无法对数据流中的数据进行快速精确计算。本文在数据流背景下,结合数据挖掘技术,研究面向数据流的海量数据近似查询算法。融合流处理和批处理特性,利用改进的滑动窗口来提供流式近似查询能力,利用改进的分层抽样算法对数据流产生的海量历史数据进行分层抽样,最大限度避免偏倚值对查询结果的影响。本文的主要研究工作如下所述:(一)面向多维属性数据集,利用因子分析法进行属性归类,降低需分层的维度,提出一种聚类优化的HC-UPGMD算法,提高聚类效果,将聚类结果作为分层依据,为后续近似查询模型中历史数据分层抽样服务。(二)提出一种基于衰减滑动窗口权值分配的分层抽样(SS-ASWWA)算法,将滑动窗口划分成若干个基本窗口,利用衰减函数设定基本窗口权重,依据基本窗口权重和数据元素个数设定相应抽样比。(三)在前述算法基础上,提出一种面向海量数据实时分析的近似查询模型,详细介绍了各个模块的功能以及对应算法的实现细节。针对上述的算法和模型,本文在对应章节进行了实验验证,实验表明这些算法和模型是切实有效的,并且可以广泛地应用于智慧城市及军用大规模数据流实时分析领域。
其他文献
针对白莲河抽水蓄能电站充水保压蜗壳的不同保压值,对蜗壳应力、外围混凝土应力、座环位移、混凝土承栽比进行了对比分析,并通过计算蜗壳与外围混凝土问初始缝隙值判断运行时两
中医学基础理论中提到的正治反治;扶正祛邪,脏腑补泻,三因制宜等原则,同样适用于消化系统病症,但由于消化道涉及的脏腑多,其生理病理特点不同,为了便于执简驭繁,重点可归纳为以下几种
利用毛细孔的滤波作用,降低船舶水尺刻度处受波浪的影响值,用摄像头对水尺刻度进行摄像,再利用蓝牙无线传输,以及相关数据分析技术,设计一种耐波浪型便携式船舶水尺观测仪,提
为评估社区老年人运动习惯与认知功能的关系,在北京市通过分层、方便取样的方法选取60岁以上的老年人732名,采用自编调查表收集一般人口学资料及运动习惯情况(包括有无运动习
我国饲料工业从20世纪70年代末期发展到今天,已经取得了突飞猛进的发展。可以说,饲料工业的发展对我国畜牧养殖业,特别是规模化养殖业的发展做出了巨大贡献。
当前,对证券投资基金课税存在问题的症结在于其法律性质和地位,从证券投资基金财产的独立性、基金外部管理者的运行架构以及运行效果可以看出,证券投资基金具有组织体的特性,
近年来,职业打假人的队伍不断壮大,由从前的'单枪匹马''孤军奋战'日益走向专业化、团队化,他们维权的基本手段为一买、二谈、三投诉举报、四复议、五诉讼,多
本试验对不同类型的猪舍在不同季节内CO2、NH3和H2S在舍内空气中的含量进行了测定。结果表明,生物垫料猪舍无论从温度还是从有害气体的含量均优于普通开放式猪舍,有利于猪的健
为了提高云赤芍用药的准确性和安全性,测定云赤芍的总灰分和酸不溶性灰分,为云赤芍的质量标准的制定提供理论基础。
以构皮滩水电站为例.介绍了混凝土拱坝接缝灌浆施工技术及质量控制、灌浆施工措施,针对灌浆施工中灌浆区易出现的细缝、串漏、堵塞等缺陷提出了防范措施。实例表明,该措施有效可