论文部分内容阅读
近几年来,随着移动计算和传感器设备的迅速发展,高维度多变量数据日益增多,例如互联网企业巨头阿里巴巴专注于电子商务多年,积累了海量的文本、视频类高维多变量数据,蕴含着巨大的商业价值。数据压缩技术是合理分析这些海量数据的关键一步,通过压缩可以去掉大量的冗余信息,以减小数据挖掘、可视化分析等科研任务的压力。但是传统的单一变量数据压缩技术无法处理这类海量数据,针对高维度多变量大规模数据集的压缩技术研究又很少,目前所存在压缩算法也只是扩展传统的单变量分析方法。因此,针对于高维度多变量数据的压缩技术研究具有重大的意义。本文分析了多变量体数据多个变量之间的内在关系,提出了两种可行的压缩方法,实验结果均表明了本文提出的压缩方法的有效性。在第三章中,本文提出了基于小波变换的多变量体数据压缩方法。主要利用小波变换在时频域的局部化特性以及与多分辨率分析完美结合的优点。我们通过彩色空间转换(RGB到YCbCr)预处理彩色多变量体数据,然后依据不同的权重值对三个颜色分量不均衡采样,再根据颜色分量的重要性分别选择小波变换和离散余弦变换分解数据,最后由阈值量化去掉冗余系数,实现对多变量体数据的压缩。考虑到本文第三章提出的压缩方法在处理的数据类型上的局限性,第四章中,本文又提出了结合了机器学习相关理论的压缩方法。考虑到多变量体数据的流行结构,通过流行方差最小化准则迭代求出体数据中最具代表性的体素的特征向量集合,压缩的数据是特征向量集合和MDS对原始体数据降维后结果,最后利用半监督学习算法在这些代表特征的基础上学习一个预测模型,用来重构体数据中的多个变量值。