论文部分内容阅读
随着网络技术的快速发展,包含有文本与图像等数据的多模态文档大规模地出现在人们的日常生活中。在信息的世界中,这些不同模态的数据资源可以无形地提升感觉器官接受知识的能力。尽管如此,由于多模态数据所呈现出的多样性、复杂性与随意性,人们很难从大量的数据资源中挖掘出对自己有用的信息。因此,为了更好地满足人们日益增长的各种需求,本文从多分类与检索的角度研究了多模态数据的智能化管理技术。 许多实际问题的解决方案均涉及到多分类技术,该技术可以有效地缩减用户与计算机的理解差异。在传统的多类Boosting方法中,多类损耗函数不一定具有猜测背离性,且多类弱学习器的结合被限制为线性的加权和。为了获得高准确率的最终分类器,多类损耗函数应该具有多类边缘极大化、贝叶斯一致性与猜测背离性。除此之外,弱学习器的缺点可能会限制线性分类器的性能,然而它们的非线性结合可以提供较强的判别力。根据这两个观点,本文设计了一个自适应的多类Boosting分类器,即SOHP-MCBoost算法。在每次迭代中,SOHP-MCBoot算法能够利用向量加法或Hadamard乘积来集成最优的多类弱学习器。这个自适应的过程可以产生弱学习的Hadamard乘积向量和,进而挖掘出数据集的隐藏结构。 对于一个多模态数据文档,模态内损耗可以捕获到每个模态数据的语义类信息,而模态间损耗可以挖掘到不同模态数据之间的语义相关性。传统的单模态Boosting方法没有考虑模态间损耗,这可能会增大相关数据的语义距离。为了共同地分析多模态数据,本文设计了一个包含模态内损耗与模态间损耗的多模态多类Boosting框架。对于多维泛函空间内的优化问题,这个框架可以利用梯度下降的策略来轮流地更新每个模态的预测器。在获得最优预测器之后,Sigmoid函数可以把相应的拟边缘转换成语义概念类的后验概率。经过这样的操作过程,语义空间的跨模态检索能够妥善地保存模态内的语义信息与模态间的语义相关性。 基于原始特征向量的内容相似性可以揭示每个模态数据集的内部结构,而基于语义特征向量的语义相似性反映了不同模态数据之间的相关性,二者的结合能够在一定程度上提高跨模态与多模态检索的性能。在一阶马尔可夫链中,每个目标对象的内容特征与语义特征可以分别表示一个隐藏状态及其对应的发射概率。根据多类逻辑回归或随机森林,具有一阶马尔可夫链的CCSS模型可以把每个模态数据的原始特征映射到一个共同的语义空间。通过在马尔可夫链内寻找一条最优的状态路径,CCSS模型能够为每个查询对象返回一条目标对象的索引序列。在这个序列中,相邻的目标对象具有类似的内容信息与语义信息。 不同模态的数据提供了互补的信息,它们的相互作用可以帮助人们在高层次上更好地理解多模态数据文档。在跨模态检索的过程中,具有两条一阶马尔可夫链的图模型(CCSSI)不仅考虑了不同模态数据的相互作用,而且结合了内容相似性与语义相似性。一条链中的对象可以转移到该链的另一个对象,却不能转移到另一条链上的任意对象。当CCSSI模型检索一条链中的对象时,另一条链中的对象能够补充有用的信息。在某一个时间步,最相关对象的选择同时依赖于两条马尔可夫链的隐藏状态。给出一个查询对象,CCSSI模型可以输出一条目标对象的索引序列。