论文部分内容阅读
卫星遥测数据中蕴含了丰富的客观规律和知识,序列模式挖掘作为时间序列数据挖掘研究的一个重要分支,可为其提供有效的分析途径。从中挖掘出的隐含有用的信息,可为在轨卫星的安全管理与健康运行提供帮助。本文以某卫星供配电系统240余万行的电源数据为分析对象。在经过野值剔除、参数选择、周期分析之后,对5个具有代表性的遥测参数进行特征表示、主旨模式挖掘以及闭合模式挖掘。本文主要创新点如下:(1)针对现有分段线性表示方法中存在的压缩效率低、过于细化某些尖端子序列等问题,提出了一种基于关键点的特征表示方法FR_KP。顺序扫描整个序列,通过极值保持时间、变化幅度,以及转折点前后线段的斜率差值来判断是否为关键点。实验表明,该方法能够在实现高效压缩的同时,准确不失真地刻画原始序列的变化趋势。(2)针对现有主旨模式挖掘方法中存在的问题,如难以在质量与运行效率之间找到一个平衡点,匹配数较小的主旨序列容易被忽略等,提出了一种基于惩罚的全局平均序列主旨模式挖掘方法PGAS_Motifs。采用K-Means算法对子序列进行聚类,并将所有聚类中心作为不同的主旨模式输出。针对聚类过程中的两个关键问题:距离度量的选取、聚类中心的计算,分别提出了基于时间惩罚的动态时间弯曲距离PDTW以及基于PDTW的全局平均序列计算方法。PDTW在进行最短路径计算时引入惩罚因子,解决了因错误匹配而带来的距离失真问题;全局平均序列计算方法将同一簇中的所有序列作为一个整体进行考虑,避免了迭代过程中的误差传递,并解决了因“过度拟合”而带来的计算复杂度增加问题。实验表明,该方法能够成功提取出遥测数据中反映卫星工作状态的主旨模式序列;PDTW度量比DTW度量更加有效;全局平均序列计算方法与NLAAF相比,有更好的拟合效果。(3)针对传统频繁模式挖掘中存在的结果集合冗余且有效模式难以发现,以及现有以模式增长为基础的闭合模式挖掘方法效率低下等问题,提出了一种将垂直数据表示与启发式剪枝策略相结合的闭合模式挖掘方法Clo PMVP。在闭合模式挖掘的过程中,引入SPADE算法中的垂直数据表示方法,在计算序列支持度时只需要进行简单交集操作,从而提高了计算效率;在进行序列模式扩展时,利用Clo Span算法中的回溯子模式和回溯超模式进行有效剪枝,来减小搜索空间。实验表明,当序列集合的平均序列长度较长或支持度较小时,挖掘效率较Clo Span算法有了明显的提升;此外,挖掘得到的闭合序列集合与SPADE算法的频繁序列集合相比,更加紧凑,有效信息更容易被发现。