【摘 要】
:
随着科学技术的不断进步,迅速发展的物联网行业正时刻产生着大量数据,其中一个很重要的组成部分即为时间序列数据。时间序列数据为按时间排序的一连串观察数据的集合(例如心电图,一天的天气,每周的销售额和每月股票价格等),针对时间序的实时数据挖掘是数据中心的一个重要任务。时间序列数据有数据量大,维度高和数据更新频率快三个特点,这些大量的时间序列数据负载给数据中心的数据挖掘任务带来了全新的挑战。距离函数作为不
论文部分内容阅读
随着科学技术的不断进步,迅速发展的物联网行业正时刻产生着大量数据,其中一个很重要的组成部分即为时间序列数据。时间序列数据为按时间排序的一连串观察数据的集合(例如心电图,一天的天气,每周的销售额和每月股票价格等),针对时间序的实时数据挖掘是数据中心的一个重要任务。时间序列数据有数据量大,维度高和数据更新频率快三个特点,这些大量的时间序列数据负载给数据中心的数据挖掘任务带来了全新的挑战。距离函数作为不同序列间的相似度度量方法,是大多数高速数据挖掘任务的主要组成部分。在实际数据挖掘应用中,距离函数的计算时间占总时间的极大一部分,是时间序列数据挖掘任务的计算瓶颈。为了解决上述问题,提高数据挖掘的效率,减少数据挖掘任务所耗时间,近年来出现和很多针对距离函数的软件和硬件加速方法。然而,这些加速算法都是针对单一的距离函数,导致这些优化方法只能局限于某种特定的距离函数和特定的应用场景。在数据中心数据挖掘任务中需要同时处理多个应用,每个应用需要使用对应的距离函数,针对这样的场景,已有的加速方法已经无法适用。因此需要设计出一种可配置的加速器,能同时满足多个距离函数的加速需求。忆阻器作为一种新型非线性器件,具有阻值可变和电阻记忆的功能,目前已被广泛应用于存储器和神经形态计算中。本文针对数据中心中的实时高效时间序列数据挖掘任务,提出了一种基于忆阻器的高吞吐量可配置相似度度量加速器。设计的加速器可以通过配置,实现目前时间序列数据挖掘任务中的六种常用距离函数(分别为动态时间规整,最长公共子序列,编辑距离,豪斯多夫距离,汉明距离和曼哈顿距离)的加速。为了提高能量效率,减少加速器占用面积,我们从各个电路结构中抽取出基本结构,通过对基本结构的配置实现不同距离函数的加速功能。为了评估本文设计的加速器性能,我们在公开的时间序列数据集上对加速器做了系统性能测试和端到端性能评估。实验结果表明,与已有的距离函数加速方法相比,本文设计实现的基于忆阻器的可配置相似度度量加速器取得了3.5x-376x加速比,同时在低精度损失的情况下,能量消耗降低了1-3个数量级。
其他文献
对于半导体自旋电子学器件而言,自旋注入层材料选择一直是个问题。注入层材料选择的根本问题是金属自旋注入材料与半导体材料的电导不匹配,从而导致自旋注入效率下降。后来人们尝试利用稀磁半导体作为自旋注入材料来解决电导不匹配问题,但是稀磁半导体的铁磁性仍是无法被解释的。因此后来人们把目光放在了铁氮化合物,开始对铁氮化合物进行研究。铁氮化合物有着不同的结构,其中ε-Fe_3N材料具有良好铁磁性。另外,GaN作
互联网服务正在极速运行和发展,并朝着多元化的方向持续变革与创新。网络结构逐渐复杂化,预测模型可为网管中的带宽配置、路由管制和差错调节提供必要的参考,对提升网络性能以提供更好的服务质量(QoS)具有尤为重要的意义。因此,网络流量的分析和预测技术一直是相关领域的热门研究课题。首先,本文在研究了网络流量复杂非线性特征的基础上,对来源于国内高校网络中心内不同设备线路的真实网络流量数据进行筛选和采集;然后从
螺栓是机械设备中常用的紧固件,具有结构简单、装配方便、经济适用等优点。但在实际工况中由于振动冲击等因素造成螺栓失效,导致很大的隐患,为了探究螺栓连接的松动机制研究人员进行了一系列的试验。目前对于螺栓连接的研究主要集中在螺栓/螺母的配合结构中,而对于盲孔螺栓连接结构的研究较少。本文对剪切激励下盲孔螺栓连接结构的松动行为开展研究,并且对盲孔螺栓的疲劳寿命进行分析验证,这对盲孔螺栓连接的实际应用具有重要
随着3D打印技术的不断进步,表达清晰、观赏性好且不需要后续处理的彩色模型,逐渐引起了人们的关注,彩色3D打印已经成为消费者的普遍需求。然而,作为目前3D打印领域模型描述的
随着人口老龄化和医疗资源不平衡等社会问题日益严峻,移动医疗技术受到了广泛的关注。植入式医疗设备在移动医疗系统中主要用于感知人体生理信息。相比于传统的有线连接或线
在现代化的制造过程中,制造过程自动化程度及工业复杂度不断提高,单纯依靠传统的多元统计过程控制(Multivariate Statistical Process Control,MSPC)监控制造过程的异常已无法满足现代化制造过程的要求。随着信息采集技术的发展,制造过程产生了大量的数据,而如何利用好这些数据并服务于多变量过程质量控制领域成为研究人员急需解决的问题。在大数据时代背景下,许多的机器学习算
随着河北省规模化畜禽养殖场与日俱增,环境污染风险也日益突出,因此实现环境友好型畜禽规模化养殖对于畜禽环境污染的防控具有重要意义。基于此,本文首先通过污染物测算和ArcGis10.2空间分析功能对河北省畜禽污染现状进行分析,其次运用EKC模型了实证分析了河北省不同畜禽养殖规模下的COD、全氮、全磷排放规律,并通过模型方程计算出河北省适合的养殖规模理论值,探明了污染物排放的主要来源;再次,分析了不同规
随着计算机技术的迅猛发展,互联网因其包含的海量信息而越来越多的成为了人们获取信息的主要场所。也有了更多的人乐于在互联网上分享自己的知识,这导致了网页数量的爆炸式增长。据1月31日中国互联网络信息中心(CNNIC)在京发布的第41次《中国互联网络发展状况统计报告》显示,截止至2017年12月,我国网民数量已经达到了7.72亿,占人口总数的55.8%,超过全球平均水准4.1个百分点,超过亚洲平均水准9
对于军人而言,古今中外的国家都要求其严格遵从上级的命令。这不仅是军队秩序维护的基础性条件,同时也是军队战斗力得到保证的重要因素。但是,下级军人是否应当对上级的所有
场景文字识别,手写文字识别,音乐乐谱识别等基于图像的序列识别问题一直是计算机视觉领域的研究热点。不同于识别扫描文档中文字的光学字符识别(Optical Character Recogniti