高维时间序列的表示方法及其分类算法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:lqgomqj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
时间序列分类是一个具有广泛实际应用背景的研究方向。由于受到数据采集过程中设备、采样技术、采样环境等多重因素的影响,获得的原始时间序列数据作为简单的向量数据,呈现出无明确特征、维度高、类内变异复杂多样等特点。因此,作为时间序列分类算法研究的前提和基础,通常需要对原始数据进行重构。数据重构一方面可以减少算法实际需要处理的数据量来提高算法的运行效率,另一方面是希望能够通过更充分和明显的表达原始时间序列数据蕴含的本质信息来提高分类精度。然而,目前时间序列数据转换表示和分类算法研究存在三个方面的问题。首先,绝大多数特征学习模型都是基于训练数据,忽视了测试实例包含的特征信息,这导致特征的泛化性能和可解释性较弱;其次,用于重构数据的表示模型研究面临诸多挑战。例如,特征原型定义、特征生成、特征选择、特征相关性分析、数据转换方式等一系列问题;最后,与特征原型、重构数据相适应的分类算法设计的相关研究较为滞后。针对上述问题,本文在适用于不同时间序列数据类型的特征原型基础上,对时间序列的表示模型和分类算法进行了深入研究。本文的主要贡献如下:(1)提出了一种基于shapelet特征的懒惰式分类算法首先,针对目前基于时间序列shapelet的分类算法存在的候选shapelets集合规模巨大、针对性不强和忽略待分类实例局部特征信息的问题,提出了基于待分类实例子序列空间的候选shapelet选择策略。然后,为了提升shapelet的搜索效率和质量,提出了shapelet评价数据集的概念和相应的学习算法,为每个待分类实例建立针对性的鉴别性特征评估数据集,并用于最优shapelets搜索。最后,设计了一种融合了全局相似性和局部相似性的懒惰式分类算法。此外,为分析数据的特征分布和频率信息,提出了shapelet覆盖评分的概念用于时间序列各时间戳的鉴别性强弱度量。实验结果表明,所提算法具有较高的准确率和强可解释性。(2)提出了一种基于随机投影技术的shapelet词袋表示模型不同于传统的基于top-k shapelets的时间序列转换表示模型,首先,为建立能够更全面反映复杂多变时间序列局部特征信息的特征集合,提出一种基于随机投影技术的快速shapelet特征字典学习算法;然后,不同于简单的shapelet最小距离转换方式,提出了基于shapelet特征字典的shapelet词袋表示模型,该表示模型在数据转换过程中不仅考虑了shapelet和完整时间序列的局部匹配程度,还考虑了shapelet的频率信息。大量对比实验表明,和传统shapelet转换方法及多种基准分类模型相比,基于shapelet词袋表示模型重构的数据可以获得更优的分类性能。(3)提出了一种基于符号傅里叶近似的时间序列表示模型首先,针对目前基于符号傅里叶近似(Symbolic Fourier Approximation,SFA)的特征生成技术不能为不同长度滑动窗口动态设定最优傅里叶值个数的问题,提出了一种为不同长度滑动窗口学习最优单词长度的可变长度单词抽取方法;其次,基于tf-idf思想设计了一种新的特征鉴别性评价指标;最后,针对各分辨率条件下生成特征的鉴别性差异,提出了基于动态阈值的鉴别性特征字典构建算法,并给出了对应的基于鉴别性SFA特征的表示模型。实验结果表明,逻辑回归模型在基于tf-idf鉴别性SFA特征重构的时间序列数据上可以获得优异的分类性能。(4)提出了一种基于符号傅里叶近似的多分辨率集成分类算法首先,为减少基于SFA技术的单词长度学习过程的计算量,提出了一种基于傅里叶值鉴别性变化趋势的快速单词长度学习算法;其次,为利用生成单词间的相关性,提出了一种基于skip-bigram的共生单词生成模型;最后,为解决基于SFA和滑动窗口机制的时间序列符号化表示技术普遍存在的重构数据可能出现维度灾难的问题,设计了一种多分辨率集成分类机制。大量对比实验结果表明,和多种基于不同理论基础的分类算法相比,所提算法具有优异的性能表现。以上成果从提升数据质量、增强模型的可解释性等多个角度出发,展示了提出的表示方法和分类算法在数据特征信息挖掘和分类精度提升上的有效性,为高维复杂时间序列的实际应用和深入研究奠定了良好基础。
其他文献
目的 观察茵栀黄颗粒联合蓝光照射治疗高原地区新生儿黄疸(NJ的临床效果。方法 选取
纯电动公交车具有能耗低、零排放等优点,是解决城市公交系统供需矛盾和环境污染的重要手段。推进城市公交纯电动化是实现公共交通系统可持续发展,倡导绿色公交先行的重要内容。随着纯电动公交车的规模扩大,承载的客流量增多,纯电动公交车运营成本高和服务水平低的问题日益凸显。不仅给企业带来了极大的运营压力,也阻碍了纯电动公交车的快速发展。为此,本文从纯电动公交车线网和运营管理等方面入手,确定影响纯电动公交车服务水
城市轨道交通速度快、运量大、安全性强,已经成为缓解城市交通拥堵的最有效手段之一。世界大型城市如纽约、东京、上海等城市的轨道交通系统已进入网络化运营时代。城市轨道交通网络的线路之间以及站点之间的耦合度极大,因此复杂多变的突发事件会对网络化运营的城市轨道交通系统的运行效率以及运输能力产生极大的影响。考虑到城市轨道交通的运输服务属性,精准评估其交通网络中扰动对系统的影响程度以及扰动后系统的恢复能力,对于
近年来,机动车保有量和交通出行量的不断提升,加上违规占道及乱停车等现象屡禁不止,导致学校和医院及周边等重点区域的交通拥堵问题越发严重。学校与医院等城市重点区域往往是居民交通出行的主要区域,城市重点区域的交通运行状态与居民生活息息相关。交通拥堵不仅增加了出行过程中的延误,也使得交通事故发生率提高,严重威胁中小学生与医患人员的出行安全。然而,我国应用的城市交通运行状态识别,主要从宏观角度出发,重点关注
复合地层盾构掘进中地层性质的变异性和复杂性为盾构机的选型与设计带来了巨大挑战,滚刀作为复合地层盾构掘进的主力刀具,其荷载计算与合理配置是盾构选型的重点和难点。同时,复合地层掘进过程中开挖面中广泛分布着高强度、高磨蚀性地层,并且地层性质变化剧烈,使滚刀面临着复杂恶劣的工作环境而容易发生刀圈偏磨、断裂、刀轴损坏、刀盘荷载剧增、掘进困难甚至盾构卡机等不良后果。为了探究复合盾构掘进中开挖面与滚刀之间的相互
可穿戴网络作为物联网的重要组成部分之一,在军事、医疗、工业等领域均有重要的应用。近些年,随着电子产业以及大数据相关技术的迅猛发展,可穿戴网络与各领域的结合更加紧密与深入,对于可穿戴网络中信息的精度也提出了更高的要求。数据融合技术可以利用原始数据的冗余信息进一步提高数据的精度与可用性;数据估计技术则可以根据原始数据的状态信息进行数据的处理,去除或减少噪声的影响。可穿戴网络数据处理中的高精度数据融合估
我国城市轨道交通进入大规模发展阶段,轨道交通已逐渐成为大城市交通系统中的主体和骨干。随着轨道交通规模的持续增长,巨大的建设及运营成本使城市财政承压,但与此同时轨道交通运行效能并未充分发挥,与城市空间发展和土地利用也存在脱节,轨道交通的投入产出效率亟待改善。城市政府作为城市公共政策制定的主体,其管理模式及重心近年来正逐渐由单纯依靠行政手段,转向依靠经济、法律、行政等手段综合施策,经济政策将成为未来政
2μm波段多通道光纤光栅因其出色的滤波特性和优异的兼容性而成为多波长掺铥光纤激光器中滤波器件的绝佳选择。基于多通道光纤光栅滤波器的掺铥光纤激光器具有体积小、光束质量高、抗干扰能力强、与普通光纤兼容性好等诸多优点,其工作波长为人眼安全的2μm波段,该波段中存在高透过率大气窗口和多种气体强吸收峰,因此在光通信、激光医疗、光纤传感及激光加工等领域具有广阔的应用前景。本文结合所参与的国家自然科学基金项目,
随着行业数据的急速增长,推荐系统成为用户获取有用信息的必要工具。通过分析用户历史行为信息,有效挖掘用户偏好模式,实现不同情境和不同任务需求的推荐。针对个性化推荐的研究不仅对用户获取有效信息具有重要的指导意义,同时也具有重要的商业价值,高效的推荐能够有效提升在线服务的市场价值,甚至对社会发展和国家安全具有重要意义。此外,推荐系统相关理论与方法的研究结合了不同学科不同分支,对不同学科的发展起到了促进作
微弧氧化是一种在基体表面原位生成陶瓷氧化膜层的表面处理技术,可改善镁合金的性能,但是传统微弧氧化膜层存在“致密层薄、耐蚀性差”的问题,制约了高性能镁合金的发展。本文将复合电介质的击穿放电与微弧氧化处理相结合,提出了复合电介质微弧氧化成膜技术思想,开展了AZ31B镁合金复合电介质微弧氧化膜层的制备与电化学腐蚀性能研究。利用氧等离子体的助烧结作用消除了微弧氧化成膜过程中出现的沙化现象,建立了通氧量与非