论文部分内容阅读
随着互联网技术的进步和终端设备的更新,多媒体技术得到新一轮的发展。4G网的普及和智能手机的进步使得人们可选择的交流方式更加多样化。大量以文字,图片,音频,视频为载体的数据产生,多媒体数据的研究对日常生活产生巨大影响。虽然在过去,很多学者研究多种媒体的数据并提出了大量高效且高性能的方法,但是传统的方法大多只是处理单一媒体下的数据。随着互联网网速的提高和计算机存储容量的增加,很多领域都鼓励使用多种媒体的数据来完善信息,每种多媒体数据都有其不可代替的优点。即使在普通的日常交流中,聊天软件也提供了文字,语音,表情符号,短视频等多种途径作为交流方式。而根据人们生活习惯的不同,网上聊天产生的数据更加个性化。这些无序的由多种媒体混合的数据使得挖掘这些异构域间关系,求出公共空间处理这些异构数据尤为重要。迁移学习可以学习两个域之间的关系,利用源域已有的完备信息,可以有效的提升目标域分类器的性能。异构迁移学习更多通过求解两个异构特征域的公共空间,实现数据的再利用。而对于跨媒数据,不同媒体下的数据使得跨媒公共空间比较传统异构迁移学习(跨语言迁移学习,跨主题迁移学习)更加困难。本文深入研究现有异构迁移学习在跨媒数据中存在的问题,在大量异构迁移学习基础上,提出两种不同的跨媒异构迁移学习算法。首先,对于跨媒数据域,在源域和目标域同时存在,且具有一一对应强关系的数据(共现数据)得到的成本极高。单一存在于源域或目标域,没有目标域或源域的样本与之对应的数据(非共现数据,普通数据)随着大数据的发展更加易得。针对此问题,本文提出了针对弱匹配的跨媒异构迁移学习,即同时利用共现数据和非共现数据求解迁移学习问题。该模型不单单解决了源域到目标域的迁移问题,还将非共现数据知识迁移到共现数据中。该模型的主要工作在于:首先,该模型提出了一种新的异构距离度量方法,与传统的异构距离度量方法不同,该方法不单单可以求解异构距离,并且可以通过插值函数自动调节不同域下同构距离之间的权重;基于此异构距离和调节权重的方法,该模型可以同时利用共现数据和非共现数据求解不同媒体的数据到公共空间的映射函数,在共现数据较少的情况下,该模型也可以利用大量非共现数据取得良好的效果。其次,由于跨媒数据之间间隙过大,不同媒体下的样本会产生媒体下独有的特征。即使具有一一强对应关系的样本,不同媒体下它们的特征也不全部具有强一一对应关系,单纯的求解映射函数会造成弱相关的特征间的相互转换,即过适配问题。本文提出了一种防止过适配的跨媒异构迁移学习模型,将两个域间的特征分为强相关特征和弱相关特征。强相关特征可以用来构建两个域之间的公共特征空间,而弱相关特征保留了域内特有特征。该模型以矩阵分解为框架,使得在同时求解公共特征和特有特征时,模型可以兼容其他的迁移学习参数。