【摘 要】
:
时序数据是按照时间顺序观测某个或某些物理量得到的一串值,其反映了事物属性随着时间变化的特征。时序数据压缩是一个基础且重要的工作。时序数据的压缩不但能够减少空间存储,而且降低了数据传输的成本。本文对时序数据无损压缩展开研究,设计了一种针对时间戳的无损压缩算法以及两种针对时序数据值的无损压缩算法,实现了数据信息无失真情况下的高压缩率压缩。主要工作及创新点如下:(1)提出了e-DoD时间戳压缩算法。该算
论文部分内容阅读
时序数据是按照时间顺序观测某个或某些物理量得到的一串值,其反映了事物属性随着时间变化的特征。时序数据压缩是一个基础且重要的工作。时序数据的压缩不但能够减少空间存储,而且降低了数据传输的成本。本文对时序数据无损压缩展开研究,设计了一种针对时间戳的无损压缩算法以及两种针对时序数据值的无损压缩算法,实现了数据信息无失真情况下的高压缩率压缩。主要工作及创新点如下:(1)提出了e-DoD时间戳压缩算法。该算法首先对UNIX时间戳进行二阶差分,然后固定变长编码对二阶差分值绝对值较小者进行编码,使用位掩码法、尾零法以及偏置法三种编码方法分别对二阶差分值绝对值较大者进行编码,选择编码最短的编码方法编码该二阶差分值,使用变长控制位对所有编码进行变长控制存储。e-DoD算法有效减少了时间戳的存储空间开销。(2)提出了Pred Zip时序数据值压缩算法。该算法分为两个部分:概率预测模块和算术编码模块,概率预测模块对时序数据中的每一个字符,利用该字符的前k个字符预测其条件概率值,算术编码模块使用该字符的条件概率值进行算术编码压缩。Pred Zip算法在实验数据集中压缩率最高达到9.2。通过分别使用了基于逻辑回归、LSTM以及XGBoost的三种概率预测模型的Pred Zip压缩算法进行实验对比,发现概率预测模型的预测精度越高,算法的压缩率就越高。(3)提出了CS-Zip时序数据压缩算法。该算法分为训练过程和数据压缩过程。在训练过程中,首先使用遍历择优标注算法标注定长数据段的最优数据压缩的数据转换方法,形成训练集;依据该数据集训练数据转换方法分类器。数据转换方法包括一阶差分、一阶逆差分、二阶差分、二阶逆差分、异或和差分异或6种方法。在数据压缩过程中,时序数据均匀分成数据段,根据数据转换方法分类器得到该数据段的数据转换方法;然后根据该方法对该数据段进行转换,再对转换后的数据段中的每一个数据选择压缩率最高的编码方法进行编码。数据编码方法包括位掩码法、尾零法、偏置法和右向偏置法。CS-Zip算法为时序数据的每个分段选择压缩率更高的压缩方法,从而提高实现整个时序数据的压缩率。
其他文献
近年来,随着视频监控、短视频社交等领域的蓬勃发展,产生了海量的视频数据。视频目标分割算法的发展促进了视频内容理解技术的广泛应用,对于智能安防、视频存储和自动驾驶等任务具有重要意义。视频目标分割旨在将某些特定的、显著的目标从视频背景中分离出来,本质上是一种像素级分类任务。然而,由于视频内容的多样性和复杂性,使得视频中存在大量前景背景混淆、目标形态变化、目标尺度变化等诸多问题,给视频目标分割算法带来了
铁路建设是我国交通领域的重要范畴,随着铁路线路的大量开行及铁路运营里程的逐步增加,对铁路运行安全状态的监控显得越来越重要。目前,我国已经进行了铁路安全图像智能分析设备的铺设,这些系统主要采用人工图像判别方式,该判别方式任务量重、难以满足实时检测要求且容易产生漏报、误报现象。因此,开发基于人工智能的铁路图像监测及检测系统的需求也越来越迫切。本文基于国铁集团组织建设的动车组运行故障动态图像检测系统(T
当今,全球已步入万物互联和人工智能时代,随着智能识别技术的发展和普及,人们在获得便利的同时隐私安全正遭受着潜在的威胁。在视频监控和社交网络的大范围覆盖下,人脸数据成为最容易获取的生物特征隐私信息。因此,在大数据时代下,人脸数据的隐私问题值得人们深思,如何在隐匿人脸身份信息的同时保留人脸属性信息具有重要的研究价值和意义。本文学习了现有的人脸数据隐私保护方法,受监督学习和生成对抗网络的启发,提出了一种
随着我国铁路事业的快速发展,行车安全成为亟待解决的问题之一。其中,行人误闯是影响行车安全的重要因素。因此,及时检测是否有人员误闯列车运行线路可以保障行车安全。传统的行人检测方法难以实现高性能和实时性的检测任务。近年来,随着深度学习技术的快速发展,基于深度学习的目标检测算法取得了优异的成绩。因此,本文以优异的卷积神经网络为基础,结合嵌入式异构设备完成铁路场景下的行人检测,实现铁路安防的智能化。本文的
互联网的高速发展使得用户正在面临信息爆炸的问题。推荐系统通过提供个性化的商品推荐服务来辅助用户进行决策,从而减轻消费者因选择过多而产生的焦虑和困惑。基于评分矩阵的推荐算法可以根据用户的评分模式对用户和商品进行建模,但该类算法面临严重的数据稀疏性问题。而用户生成的评论文本可以反应用户的喜好和商品特征等语义信息,利用这些信息可以有效缓解数据的稀疏性问题,从而提高模型推荐的准确率。本文主要基于深度学习技
行人属性识别是视频监控领域中的重要任务,因其在视频监控应用中的巨大潜力在近些年来受到了广泛关注,它可以应用于很多下游任务中,例如行人追踪,人脸验证,行人检索等。行人属性识别任务属于计算机视觉领域中的多标签图像分类任务。多标签图像分类任务的研究重点在于如何利用标签之间的共现关系辅助模型提升分类性能。目前最先进的共现关系建模方法是图神经网络,但它存在两个严重影响性能的问题:1)低频标签无法有效的从高频
脑血管病具有高发病率、高致残率、高死亡率的特点,且患者的经济负担较高,受到了社会的广泛关注。近年来,关于脑血管病的研究已取得一定的成果,但是目前我国卒中终身风险仍居世界最高为39.3%,其中男性卒中终身风险更高达41.1%,我国卒中防治工作仍面临巨大挑战。随着医疗信息化的发展,医院积累了大量的电子病历,为数据挖掘以及数据分析提供了数据基础。同时大数据技术的发展,为处理医疗数据提供了良好的技术手段,
近年来,我国城市轨道交通高速发展,其中隧道总里程位于世界第一。由于施工、温度、载荷等各种因素的影响,地铁隧道表面会有病害发生,其中,隧道表面裂缝是最常见的病害之一,给地铁的安全运营带来威胁,因此,裂缝检测是地铁周期性巡检的重要任务。目前,针对地铁隧道衬砌裂缝的检测仍然以人工巡检为主,本文设计了一种基于多目相机的隧道衬砌图像同步采集系统,可以在天窗时间内快速采集高质量的隧道衬砌图像,同时提出了一套基
随着近年来自助游市场的迅速发展,更多的出游者不仅是网络旅游资讯的信息接收者,同时也是网络信息的生产者和传播者。UGC(User Generate Content,用户生成内容)指的便是用户在网络上发表的文字、图片或视频等一系列信息资源。本项目的选题来自作者在某旅行APP公司所参与的实际项目,基于以上背景,公司在现有市场的基础上开始向社交领域发展,致力于打造旅行+社交的出游模式。本文的旅行APP后端
情感分析是当前自然语言处理领域中最活跃的研究方向之一。作为细粒度的分析方法,属性级情感分析可以从文本中挖掘出针对不同属性的倾向性,更好地反映情感的复杂特征。属性提取是属性级情感分析的基础工作。目前属性提取方法中属性词与上下文联系不够紧密,缺乏对全局信息的充分利用。另外,可用的数据集较少,每个数据集中包含的数据量规模较小。解决上述问题对于提升属性提取效果有积极作用。针对上述两个问题,本文以双重词嵌入