时序数据序列模式挖掘

来源 :南京航空航天大学 | 被引量 : 7次 | 上传用户:puhongzhi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
卫星遥测数据中蕴含了丰富的客观规律和知识,序列模式挖掘作为时间序列数据挖掘研究的一个重要分支,可为其提供有效的分析途径。从中挖掘出的隐含有用的信息,可为在轨卫星的安全管理与健康运行提供帮助。本文以某卫星供配电系统240余万行的电源数据为分析对象。在经过野值剔除、参数选择、周期分析之后,对5个具有代表性的遥测参数进行特征表示、主旨模式挖掘以及闭合模式挖掘。本文主要创新点如下:(1)针对现有分段线性表示方法中存在的压缩效率低、过于细化某些尖端子序列等问题,提出了一种基于关键点的特征表示方法FR_KP。顺序扫描整个序列,通过极值保持时间、变化幅度,以及转折点前后线段的斜率差值来判断是否为关键点。实验表明,该方法能够在实现高效压缩的同时,准确不失真地刻画原始序列的变化趋势。(2)针对现有主旨模式挖掘方法中存在的问题,如难以在质量与运行效率之间找到一个平衡点,匹配数较小的主旨序列容易被忽略等,提出了一种基于惩罚的全局平均序列主旨模式挖掘方法PGAS_Motifs。采用K-Means算法对子序列进行聚类,并将所有聚类中心作为不同的主旨模式输出。针对聚类过程中的两个关键问题:距离度量的选取、聚类中心的计算,分别提出了基于时间惩罚的动态时间弯曲距离PDTW以及基于PDTW的全局平均序列计算方法。PDTW在进行最短路径计算时引入惩罚因子,解决了因错误匹配而带来的距离失真问题;全局平均序列计算方法将同一簇中的所有序列作为一个整体进行考虑,避免了迭代过程中的误差传递,并解决了因“过度拟合”而带来的计算复杂度增加问题。实验表明,该方法能够成功提取出遥测数据中反映卫星工作状态的主旨模式序列;PDTW度量比DTW度量更加有效;全局平均序列计算方法与NLAAF相比,有更好的拟合效果。(3)针对传统频繁模式挖掘中存在的结果集合冗余且有效模式难以发现,以及现有以模式增长为基础的闭合模式挖掘方法效率低下等问题,提出了一种将垂直数据表示与启发式剪枝策略相结合的闭合模式挖掘方法Clo PMVP。在闭合模式挖掘的过程中,引入SPADE算法中的垂直数据表示方法,在计算序列支持度时只需要进行简单交集操作,从而提高了计算效率;在进行序列模式扩展时,利用Clo Span算法中的回溯子模式和回溯超模式进行有效剪枝,来减小搜索空间。实验表明,当序列集合的平均序列长度较长或支持度较小时,挖掘效率较Clo Span算法有了明显的提升;此外,挖掘得到的闭合序列集合与SPADE算法的频繁序列集合相比,更加紧凑,有效信息更容易被发现。
其他文献
谐波频谱检测是电能质量监测仪器的核心功能 ,其检测频谱是进行各种电能质量特征值运算的前 提 . 传统以 STFT为检测算法的电能质量终端由于时间窗固定 , 不具有暂态情况下的
根据朗伯-比耳定律和吸光度加和性,对RGB叶绿素仪采用透射光测量叶绿素含量方法进行分析,得到植物叶片叶绿素含量测量方程——多元线性回归方程.利用RGB叶绿素仪和商用叶绿素
无变压器型逆变器相比变压器隔离型逆变器,具有更高的效率和更低的成本,已广泛应用于光伏并网系统。由于去除了变压器隔离,其共模漏电流问题会进一步带来严重的EMI和安全问题
海洋科考船是专门进行海洋科学调查研究的工具,涉及船舶设计、建造、科考调查技术、海洋实验、船舶管理及使用等领域,分析总结了我国海洋科考船的发展现状和不足,从其实际应
本报告通过对宏观政策进行系统全面的评价,发现2018年中国宏观调控存在一些不足,导致其没能很好地实现经济稳定与金融稳定的目标。一是部分政策指标的设定不够合理;二是货币
基于复杂网络模型,构建了机场飞行区风险演化数学模型以及风险演化拓扑结构模型,从聚类系数、平均路径长度、度分布对机场飞行区风险演化数学模型进行了阐述,从入出度、节点
邓小平同志在谈到学校管理时曾强调指出:“后勤工作很重要”。①“后勤工作的任务,就是要为科研工作、教育工作服务,要为科研工作者和教育工作者创造条件,使他们能够专心致志地从
关联理论是近年来影响很大的认知语用学理论,其影响范围很广。本文对关联理论进行了简要概述,指出关联理论与翻译的关系,并从三个方面——翻译过程、翻译方法和对译者的指导