论文部分内容阅读
随着信息技术的快速发展,传递信息的主要数据模式已经从过去的文字和图片逐渐变为了视频。相比于文字数据和图片数据,视频数据具有可传递信息量丰富多样、所包含时空关系复杂、规模庞大等特点。视频数据可传递信息量丰富多样的特点决定了其巨大的应用前景,在即将到来的物联网时代,视频数据将成为人与物体、物体与物体实现互动的基础。与此同时,视频数据所包含时空关系复杂的特点,也为数据分析和信息挖掘带来了全新的挑战。视频数据是一组连续的图像序列,其天然具有时间序列相关性。在视频数据的分析中,一个基本的问题就是物体识别和动作识别,这在统计和机器学习领域可以视为一个分类问题。在传统的分类模型中,大量文献重点研究了截面数据中的分类问题,这些成果在实践中有着广泛的应用。然而,视频数据显然不同于截面数据,我们必须将数据中的时间序列结构充分考虑,才能更充分地利用视频数据中所包含的信息,挖掘出潜在的模式,得到稳健的分类模型。本文着眼于上述问题,重点研究了时间序列数据的分类问题。文献中有很多方法对时间序列数据的分类问题作出了不同的尝试,一个重要的思路是利用条件概率的性质,用贝叶斯网络结构刻画模型中的时间序列相关性,并将这种概率网络与基于概率的分类方法,如逻辑回归,直接结合在一起;另一个重要的思路是利用深度神经网络,通过复杂的网络结构提取样本中包含时间序列结构的特征,然后实现分类的目的,如长短期记忆模型。虽然这两种思路都在某些问题上取得了良好的效果,但是它们都有一定的局限性。基于第一类思路的方法大多受限于基于概率的分类方法,在很多更为复杂的分类问题中,如多标签分类、不平衡数据分类,依据概率进行分类会使得模型变得复杂。此外,在一般的分类问题中,不依赖于概率的分类方法往往比基于概率的分类方法有着更好的表现。基于第二类思路的方法在近几年非常流行,这类方法的主要问题在于模型不具备可解释性,并且对于模型的结构和参数设置都比较敏感。在一些需要模型具有适当可解释性的案例中,如金融数据建模,这类方法就显得无法胜任了。本文的方法在解决时间序列数据的分类问题时,将充分利用上述两种思路各自的优势,同时力图在一定程度上解决它们的局限性。本文引入一种特殊的贝叶斯网络结构—隐马尔可夫模型来刻画时间序列结构,以泛化误差Err(f)=EL(Yt,Yt)评价分类的表现,提出了一个基于隐马尔科夫模型和一般分类器的时间序列数据分类问题分析框架。这个框架具有高度的灵活性,通过适当调节隐马尔可夫模型中的转移概率结构和一般分类器中的损失函数类型与判别函数类型,很多不同结构和类别的分类问题可以类似地被解决。本文重点关注的是分类问题,因此将主要讨论如何通过适当改变损失函数和判别函数来解决不同类型的时间序列数据分类问题,包括单标签分类问题、多标签分类问题以及加权损失函数下的多标签分类问题。在不同的具体案例中,我们都结合模型的复杂程度,分别给出了基于EM算法和基于坐标下降算法的训练方法,以找到快速准确的高效算法。为了保证模型在样本外的稳定性,本文相关章节的内容都会结合具体的模型,在一定的假设条件下,给出模型表现的理论性质。时间序列数据分类问题在现实生活中有着广泛的引用,其中备受瞩目的两个应用场景包括金融市场数据和视频数据的信息挖掘,本文将所提出的模型分别应用在这两类数据中,以探索模型的应用范围并检验其应用价值。金融市场数据的案例中,本文选取了中国A股市场的股票高频数据,解决对后续时刻股价变动方向的预测问题;在视频数据的案例中,本文选取了公开数据集ActivityNet captioning的视频数据,解决视频画面中多动作识别的问题。在解决金融市场方向预测问题的案例中,本文在所提出的时间序列数据分类问题框架下具体构建了单标签分类问题,将经典的处理独立样本分类问题的支持向量机作为分类器扩展到具有时间序列结构的问题中。在理论上,该分类器的表现与相应的贝叶斯分类器表现具有相合性。在数据分析中,无论是模拟数据还是金融市场数据的分析结果都表明,在预测准确性上,考虑时间序列结构的分类模型显著优于忽略时间序列结构的传统分类模型。除此以外,在金融市场数据的案例中,本文的模型还能具有一定程度的可解释性,能够对市场进行合理的解释。对于更加复杂的视频数据多动作识别问题,本文进一步研究了时间序列多标签分类问题和加权损失函数下时间序列多标签分类问题。与时间序列数据单标签分类不同,除了时间序列相关性,多标签分类问题还需要考虑不同标签同时存在的情况,这就带来了标签之间相关性的问题。用不同的方式将标签之间的相关性包含在模型当中,本文考虑了两种不同的损失函数与分类器。首先,汉明损失函数的度量下,本文的模型通过将相邻标签变量视为分类器输入变量的方式引入标签之间相关性,并将时间序列单标签分类问题扩展到多标签的情形,这是第一种处理视频数据多动作识别问题的模型。这种方法是对文献中现有多标签分类模型在时间序列数据情形下的直接拓展。接下来,考虑到视频数据的具体特点,为了更好地考虑标签之间的相关性和错误分类后损失的不对称,本文引入Zhu et al.(2019)中提出的一种全新的加权损失函数,直接通过损失函数来度量标签之间相关性。将加权损失函数引入时间序列数据分类问题的框架,并使用随机森林作为分类器,本文提出了第二种处理视频数据多动作识别问题的模型。理论上,本文证明了,在一定的假设条件下,上述两种处理多标签分类方法的分类器表现都和相应损失函数下贝叶斯分类器的表现具有相合性。模拟实验的结果表明,考虑时间序列相关性和标签之间相关性的方法在预测效果上要优于忽略至少一种相关性的方法。在视频数据的处理上,本文利用深度学习算法在视频数据处理上的优势,先采用3D卷积神经网络从视频数据中提取出大量特征作为本文分析框架下模型的输入变量,再采用自然语言处理技术对描述视频内容的描述性语言进行处理,生成动作标签和潜在状态变量。将预处理后的数据输入到上述两种处理时间序列多标签分类问题的模型中后,模型表现表明考虑时间序列相关性和标签之间相关性能够提升模型的分类预测能力。本文探索了一种全新的考虑时间序列相关性的分类问题建模方法,并分别以单标签分类、多标签分类和加权损失下多标签分类为例由浅入深地说明了所提出建模方法的模型、算法、理论性质和表现。本文的探索是一次新的尝试,特别是在处理视频等较为复杂的数据上,希望在充分利用深度学习挖掘海量数据特征这一优势的基础上,用更具有解释力的统计方法得到表现更好的模型。