论文部分内容阅读
近年来,随着对地观测技术的发展,遥感数据资源也越来越丰富,如何对数据中隐含的关系和规律进行分析和挖掘,从而获得一些新的信息,成为近年来知识发现领域的研究热点。分析数据间的相关性则对于提高知识发现的效率具有极其重要的意义。遥感数据体量庞大,借助软件直接在空域下对其进行相关性分析需要批量带入所有的数据,故耗时长、所需存储空间大,时间和空间效率较低。当数据急剧增加时,软件还会面临失效的问题。为了对数据进行压缩,简化后续的相关性分析,需要对遥感数据进行稀疏表征。用于稀疏表征的字典主要有解析和非解析两大类。文章首先用解析字典中的小波基对不同波段、不同纹理的遥感数据进行稀疏表达,接着对小波系数的高频部分进行统计分析,并作出了高频系数概率密度分布曲线。从实验结果中得出:遥感数据小波系数高频部分满足混合高斯模型,系数分布具有胖尾特性,非零元素过多,小波基不适合用于稀疏纹理复杂的遥感数据。接着,文章借助非解析字典对遥感数据进行稀疏表征。遥感数据体量较大,字典构建算法首先要能适用于大数据情形;其次为了便于后续的相关性分析,在稀疏表征时还需保留原始数据相关性信息。现有的稀疏表征算法只能满足两者之一,不能同时满足适用于大数据以及保留相关性信息的要求。借鉴超图稀疏编码和增量学习的思想,文章提出了动态超图稀疏编码。该算法将数据分成若干个样本块,每输入一个样本块,构造该样本的相关度矩阵并选择性地添加字典原子对新加入的样本进行表征。随着样本的不断输入,逐步对字典原子进行修正更新。当原始数据通过稀疏表征转换到稀疏域下,空域下的相关系数计算公式不再适用。为了衡量原始数据集间的相关性,需要定义稀疏域下的相关系数计算公式。文章定义了一个投影矩阵,借鉴学习的思想,交替更新投影矩阵与稀疏系数。以空域中计算得到的相关系数为标准,指导整个学习的过程,最终使得两样本所对应的稀疏系数之差在投影矩阵的投影下近似等于空域下计算的相关系数值。最后,选取2000年全国范围内粒度为lkm*lkm的人口,GD P,耕地面积,建设用地面积等数据进行了实验。首先对这些数据进行稀疏表征,将表征结果与ODL, RLS算法得到的结果进行对比,动态超图编码在达到与RLS近似相同重建精度的前提下,大大缩短了程序的运行时间;再在稀疏域下分析了不同数据集间的相关性,并将稀疏域求得的结果与空域计算结果进行了对比,从实验结果中能够清晰的看出两域下求得的相关系数近似满足线性关系。