论文部分内容阅读
随着数据采集制作设备的日益普及,人们越来越方便地生产图像、图形、音频、视频、动画和三维模型等多媒体数据;随着互联网和海量存储技术的应用普及,人们在任何时候、任何地方都能够访问互联网上的多媒体数据。这些多媒体数据具有异构、非结构化、高维和动态变化等特征,给后续处理例如分类、聚类、挖掘、理解和利用带来巨大困难。本文主要针对互联网数据的特点,重点研究了高维数据的降维和海量数据的增量式分类方法。在高维数据降维研究方面,本文提出了基于非负矩阵分解的快速迭代方法,它利用数据的L1归一化特性和相关数据矩阵的稀疏性特点,设计了更加简洁的迭代更新规则。实验表明,该方法不仅可以实现快速降维,还能提升后续分类或聚类的精度。在海量数据分类研究方面,本文提出了免矩阵求逆的增量式学习方法,它针对近似支持向量机模型需要计算矩阵逆的问题,设计了不必计算矩阵逆的预测模型更新公式,实现了快速的增量式学习。实验表明,在预测精度基本不变的情况下,该方法能使时间复杂度降低一个数量级。进一步,在处理动态增加的海量数据分类方面,本文提出了增量式迁移学习方法,设计了一个适合样本加权的增量式模型并采用预测反馈机制对辅助数据上的模型进行调整,从而更能适应数据规模和分布上的动态变化。实验表明,该方法具有比非迁移学习方法“更快更好”的学习效果,并具有双向的迁移学习能力。综上,本文针对海量、高维、动态数据的分类问题,分别提出了关于降维和分类的快速算法,理论分析和实验评测表明,这些新算法具有更高的运行效率和更优的分类精度。