不平衡时间序列集成分类方法研究

来源 :中国矿业大学 | 被引量 : 0次 | 上传用户:XU739603
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
时间序列分类和不平衡数据分布是实际应用中普遍存在的问题。时间序列存在数据维度高、数据之间相关性强和噪声干扰多等特点,而不平衡数据学习则更加强调分类器对少数类样本的识别能力。这两个问题在实际应用中容易产生交集,成为更具有挑战性的不均衡时间序列分类(Imbalanced Time Series Classification,ITSC)问题。现有的针对ITSC问题的解决方法以重采样方法的优化为主,但是由于时间序列数据结构上的复杂性使采样过程变得更加困难。在时间序列分类方面,2018年提出的通用集成学习算法HIVE-COTE在公共时间序列数据集上取得了最好的分类效果,但是该算法处理的对象是类分布平衡的时间序列数据集,在面对不平衡时间序列分类和大规模时间序列分类问题时,该算法的分类效果并不令人满意。在这一背景下,本文从以下三个方面展开研究工作。一、不平衡时序数据子序列质量评价指标的改进针对不平衡时间序列中子序列选择影响分类质量的问题,分析信息增益值在不平衡数据集上的不适用性,并分别结合在不平衡数据集上应用较为广泛的AUC值和AUCPR值两个评价指标,对子序列质量的评价指标进行了改进。同时,选取时间序列分类中采用信息增益为子序列评价指标的shapelet分类方法,对指标优化前后的应用效果进行验证。实验结果表明:改进后的评价指标对不平衡时间序列分类问题有更好的适用性,能找到对不平衡时间序列中最具辨识能力的候选子序列集合。二、不平衡时间序列集成分类算法研究针对现有时间序列集成学习方法对于不平衡时间序列数据存在不适用的问题,本文提出了基于集成的不平衡时间序列分类算法IMHIVE-COTE。首先,提出组件算法的改良算法SBST-HESCA,应用了采样方法SMOM与Boosting相结合的方式,通过交叉验证预测结果更新样本权重,使数据集的重采样过程更有利于提升少数类样本的分类质量;其次,IMHIVE-COTE通过优化组件算法的权重,使不平衡时间序列分类算法对分类结果拥有更高的投票比重,再次提升集成算法整体的分类质量。实验证明,和对比方法相比,IMHIVE-COTE在整体上的分类评价值最高之外,在3个不平衡分类指标值上得到了最高的整体分类评价,可以证明IMHIVE-COTE解决不平衡时间序列分类问题的能力得到了显著提高。三、不平衡时间序列并行集成分类算法研究针对传统时间序列集成算法在大规模数据集上计算效率不高的问题,本文基于通用的分布式计算框架Spark,设计并实现了针对大规模不平衡时间序列的并行集成分类算法。首先对IMHIVE-COTE中组件算法的运行效率进行测试,得到最合理的并行计算架构。然后先对运算消耗最大的shapelet类算法SBST-HESCA和ST-HESCA进行了并行化设计,将并行化计算的重点放在两个算法共有的shapelet提取流程;接着对距离类算法Elastic Ensemble的运算流程进行了并行化改进,将并行设计的重点放在算法中的距离计算部分。改进后的算法在模型训练过程中能更好地利用Spark平台的并行计算机制,在不损害原分类算法精度的情况下大幅度提高了算法运行效率,最终设计出的并行集成分类算法较原算法在运行效率上最低有接近5倍的计算时间缩短幅度,最高的能达到24倍左右的时间效率提升,而且集群环境布置较为方便,对原算法的精度影响不超过2%,可以认为该并行架构能满足大规模不平衡数据序列分类任务的效率需求。本论文共有图11幅,表22个,参考文献102篇。
其他文献
岩石是一种天然的多孔介质,在地下深处通常饱和着各种流体。地层里的岩石通常由骨架、孔隙和饱和流体三类要素构成。这三类要素的不同组分和组成方式主要受沉积环境和沉积过
双邻苯二甲腈系列树脂以其优异的耐热性、耐烧蚀性和阻燃性能广泛地被应用在航空航天、船舶等各个领域,引起了国内外学者的高度关注。近年来国内外的学者们都致力于改善双邻
为深化课程改革,落实立德树人的根本任务,《普通高中数学课程标准(2017年版)》(以下简称《课标(2017)》)明确指出数学学科核心素养,并以发展学生的数学学科核心素养作为高中
鄂尔多斯盆地陇东地区长8段致密砂岩储层孔隙度和渗透率低、非均质性强、孔隙结构和油水关系复杂,孔隙流体对测井响应贡献小,油层和水层的电性和物性差异不明显,低对比度油层
双荧光分子互补(Bimolecudar Fluorescence Complementetion,BiFC)是活细胞内研究蛋白质-蛋白质相互作用的有力工具。该技术利用荧光蛋白的两个片段分别融合相互作用的蛋白对
会议
近年来随着经济的发展,农村人口城镇化步伐的加快,昆明市城市地质环境脆弱性问题开始显现,有些问题已经引起了政府的极大的关注,但有些问题仍然没有得到必要的关注。昆明市主
布尔控制网络(Boolean control networks)是研究者在对生物系统进行建模时经常会用到的一个模型。为了更好地使用这个模型来研究生物系统,研究者需要对它的控制理论进行较为
近年来,国内很多城市开展了三维模型数据库建设工作,为智慧城市智能化、精细化管理提供了数据支撑。2019年自然资源部提出"实景三维中国建设",对三维数据模型建设提供了更高
受人类活动与自然条件的影响,内蒙古河套灌区土壤盐渍化问题日益严重,对土壤资源的可持续利用带来了巨大挑战。无人机遥感技术可快速地获取大量的地物光谱信息,其厘米级的光
土壤盐渍化是一个全球范围内的生态环境问题,主要发生在干旱、半干旱地区,它会造成土壤板结和肥力下降,进而影响到农作物的产量。内蒙古河套灌区是我国重要的农业产区,同时也