基于对比表示学习的时间序列聚类算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:Gzliao2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来,大量自动化设备投入日常生活,时间序列数据源源不断地产生。有效利用这些无标签的数据能够带来潜在的经济价值。聚类作为无监督数据挖掘的重要方法之一,在发现数据隐含模式上有着无法比拟的优势,因此利用聚类来处理无标签时序数据具有重要意义。基于距离度量或特征工程的传统时序聚类方法难以克服较长时间尺度带来的影响以进行有效聚类。而现有的无监督表示学习聚类方法在获取时序特征进行聚类时,存在学习过程与聚类任务难以有效结合的问题。利用对比学习与聚类任务在拉近相似样本、推远不相似样本的一致性,可以将对比学习过程与聚类联合优化,因此本文基于对比表示学习对时间序列数据聚类问题展开研究。针对对比表示学习在随机采样负样本时可能包含同类样本而导致的采样偏倚问题,本文提出了消除对比采样偏倚的动量表示学习时序聚类方法。该方法使用根据时序数据特点而设计的动量时序对比表示模块,增大负样本的选取范围并获得更有效的时序特征。然后利用树状聚类模块进行逐层K-means聚类,依据聚类结果采样候选负样本来消除数据偏倚。最后在对比损失函数的设计中,根据树状聚类结果增加聚类中心对比损失,引导对比学习与聚类目标的直接结合。实验结果表明该方法在部分困难数据集上获得了显著提升,最优个数超出次优方法2个,两个指标平均提升2.69%和1.82%。针对上述方法对样本在特征空间中的拓扑结构信息利用不足的问题,以及对比损失的计算依赖额外K-means聚类任务引导的问题,本文提出了融合拓扑结构信息的对比表示学习时序聚类方法。该方法一方面增强时序编码器的表示能力以获取可靠的特征空间,然后评估样本特征向量在特征空间中的距离,利用其拓扑结构来构建自适应图。借助图结构使用图卷积网络对邻居样本的特征进行聚合,引入拓扑结构信息得到最终的表示向量。另一方面利用相似性动态门限对比选择模块,消除数据偏倚的同时解除对额外聚类结果的依赖。该模块通过调整门限引导对比学习按从小到大的范围逐步选择正样本,模拟逐层树状聚类的过程,将表示学习与聚类相统一。实验结果表明该方法取得了聚类效果的显著提升,最优个数超出次优方法6个,两个指标平均提升3.68%和4.08%。
其他文献
目的探讨线粒体DNA(Mitochondrial DNA,mt DNA)遗传变异与系统性红斑狼疮(Systemic Lupus Erythematosus,SLE)易感性、糖皮质激素(Glucocorticoids,GCs)治疗疗效及SLE患者预后之间是否存在关联。方法采用两阶段研究方法。初筛阶段,选取100例SLE患者和100例正常对照,采用二代测序法进行线粒体全基因组测序,筛选出与疾病易感性相
学位
网络中时刻都在产生大量的新闻内容,信息爆炸式增长带来了极大的阅读成本。从海量的文本中自动挖掘内部的事件信息,并将相同事件的不同描述合并,具有重要的研究意义和应用价值。事件抽取旨在从文本中识别事件的触发词,并将内部实体归为不同的事件要素。现有研究主要采用先识别事件触发词,后根据触发词抽取事件要素的流水线结构。这种两步式的的抽取方法难以保持前后表示的一致性。事件共指消解则通过建立触发词与事件要素之间的
学位
目前,时序数据中的异常主要通过异常检测的方式进行检测,但异常检测往往不能够满足实际的应用需求。尤其在网络入侵检测和故障检测等应用方向,当异常被检测出来时,相应的损失已经产生。如果能够提前预测出异常可能发生的时间区间,人们就能够提前做好应对异常的相关措施,降低异常发生带来的损失。因此,进行异常区间预测具有重大的现实意义与价值。异常区间预测是一种面向预测的时间序列分类任务,旨在预测未来一段时间内是否会
学位
在防控新型冠状病毒肺炎传播过程中,肺部CT影像检查以其灵敏度高、准确性好、设备普及等特点,已被视为新冠肺炎诊断和筛查的重要标准之一。然而,临床上新冠肺炎CT影像诊断仍面临着影像数据庞大、依赖专业操作、应用场景复杂等困难。面对上述挑战,本文主要通过有效结合先进的深度学习技术和临床基础知识,深入分析临床上肺部CT影像多个不同诊断任务的本质与需求,并提出相应的解决方法和模型。总而言之,本文的主要工作如下
学位
目的烹调油烟(Cooking oil fumes,COFs)是室内空气污染的重要来源,而孕妇室内活动时间较长,更易受到烹调油烟的危害,从而影响妊娠结局。众多研究表明适宜的维生素D水平是维持母婴健康的有益因素,但补充维生素D是否能够预防烹调油烟来源的细颗粒物(Cooking oil fume derived PM2.5,COFs-PM2.5)所诱导的不良妊娠结局及脐带血管损伤目前尚不清楚。本研究通过
学位
研究背景双酚A(Bisphenol A,BPA)是一类典型的具有拟雌激素作用的环境内分泌干扰物,广泛地应用于塑料制品合成制造,导致人群环境暴露。研究显示BPA暴露与包括乳腺癌、前列腺癌和结直肠癌(colorectal cancer,CRC)等肿瘤的发生发展显著相关。神经酰胺(ceramide,Cer)不仅可以维持细胞完整性,还可作为第二信使参与细胞内的信号转导,在调控肿瘤细胞增殖、分化、迁移和侵袭
学位
研究背景三氯乙烯(trichloroethylene,TCE)作为一种优良的工业有机溶剂被广泛应用于金属表面处理、石蜡萃取及制冷剂、干洗剂的生产等。在东南亚和我国广东地区因职业接触TCE所引起的职业性三氯乙烯药疹样皮炎严重威胁职业人群健康;且因其广泛的工业应用致使TCE大量进入到环境中,严重污染空气、水源和土壤。环境中的TCE可以通过生物蓄积作用进入机体发挥毒性作用,对人体和其他生物体皮肤和脏器的
学位
研究背景国际癌症研究机构(International Agency for Research on Cancer,IARC)认定镍化合物是确认的环境致癌物。流行病学证据表明,长期慢性暴露于镍(nickel,Ni)可导致肺癌发病率增加。然而,镍诱导肺癌的机制尚未完全阐明。WIF1是一种抑癌基因,是Wnt/β-catenin信号通路的特异性抑制剂,已有的研究证据表明其表达水平下调与肺癌的发生发展存在一
学位
目前,会话推荐已广泛应用于在线视频、电子商务网站等互联网平台,成为热点研究问题之一。现有方法主要从匿名会话数据中挖掘物品偏好或用户倾向,而这些方法主要依据物品或类别的点击模式或变化趋势来进行预测。这显然无法预测语义相关度较低的类别的物品,而这种语义不相关的类别可以在高阶语义空间中所刻画。因此,本文认为会话物品的点击行为是用户潜在需求所驱动的,即前述所提的高阶语义空间。因而,本文研究面向会话数据的需
学位
随着深度学习训练数据集的日益庞大,通过分布式节点并行训练成了加速模型收敛的重要手段。在数据中心网络下的分布式深度学习训练中,模型参数的同步会引起数据流之间的资源竞争。当计算节点并发传输梯度时,产生的多个数据流将同时竞争网络资源,竞争严重时将引起网络拥塞,从而增加分布式训练耗费的时间。因此,本文将从参数通信优化入手,对分布式深度学习的整体训练过程进行优化。为了缓解数据流之间的竞争,解决现有参数同步并
学位