论文部分内容阅读
Web上包含大量异构媒体,如图像、文本、视频等,它们之间存在语义关联,分析并利用这些关联有助于更好地组织、管理及检索多媒体资源。近年,电子商务迅猛发展,它为探寻异构媒体间的语义关联提供了良好的试验平台:为商品标注语义信息丰富且连贯、流畅的文本,即实现图像句子标注,建立图像和文本之间稳定、可靠的跨媒体关联。研究意义:1)同时关注机器视觉和自然语言处理两个领域内的研究成果,并促使领域间方法、模型、算法的相互融合,进而进发新的思想火花,推动理论研究不断前进;2)有助于转变电子商务网站的数据管理方式:在自动图像句子标注基础上,仅需加入少量人工修订便可高效、准确地发布或更新海量商品信息;3)有助于提高图像检索查全率,改善用户的检索交互体验。图像句子标注(面向商品)存在的主要问题:1)图像特征学习方法偏简单。识别图像中的关键视觉特性是标注的重要前提,应抽取判别能力强、解释能力好的特征,以准确描述图像内容;2)句子连贯性有待提升。连贯性是句子可读性、可理解性的重要保障,应兼顾语义相关性和句法模式关系,生成连贯、流畅且蕴含丰富语义信息的句子;3)标注中噪声干扰严重。抑制噪声干扰能改善标注性能,应设计有针对性的噪声抑制策略,削弱噪声对标注的不利影响。故本文从如下三个方面展开研究:1、特征学习是图像句子标注的重要前提。提出基于高效匹配核(Efficient Match Kernels,即EMK)和核特征(Kernel Descriptors,即KDES)模型的特征学习策略:1)基于EMK模型抽取图像SIFT-EMK特征,采用多核学习(Multiple Kernel Learning,即MKL)模型对形状、纹理、SIFT-EMK等特征做后融合,生成新特征MKF (Multiple Kernel Feature,即MKF);2)基于KDES模型抽取图像Grad-KDES、Shape-KDES、Color-KDES特征,采用MKL模型对KDES特征做后融合,生成新特征MK-KDES-J(J=1,...,4)。实验表明:MKF、MK-KDES-1等特征能准确刻画图像中的关键视觉内容,为生成连贯、流畅的句子奠定重要基础。2、句子的连贯性是其可读性、可理解性的重要保障,它也是评判标注模型优劣的关键指标。设计自然语言生成(Natural Language Generation,即NLG)模型,以构造修饰性短语(N元词序列),连贯、流畅地描述图像内容:1)基于TF-IDF特征及图像间视觉相似度,设计语义相关度计算模型(Semantic Correlation Computing Model,即SCCM),摘取描述图像内容的关键词。采用N-gram模型约束单词间语义相关性和句法模式关系,生成语义信息丰富且连贯、流畅的修饰性短语;2)设计词序列“拼积木”(Word Sequence Blocks Building,即WSBB)模型:采用SCCM摘取关键词,词向量化单词并基于COS标准度量单词间语义相关性,并运用句法模式约束单词间句法关系。最终,WSBB模型输出一组N元词序列(N=1,...,4)。实验表明:N-gram, WSBB等模型均有助于生成连贯、流畅的短语(词序列),以作为句子的核心成分。3、句子标注中存在噪声干扰,噪声包括语义信息噪声和句法结构噪声。提出基于关键词精化(Tag Refinement,即TR)和句法树(Syntactic Tree,即ST)的标注模型:1)构建多层TR策略:①执行第1次TR:在SCCM中,用绝对排序(Absolute Rank,即AR)特征替换TF-IDF特征,以提升正确关键词的权重。②执行第2次TR:在WSBB模型中,设置单词的语义相关度评分阈值γ,进一步筛选与图像内容语义相关的单词;2)基于单词上下文(Term-Context,即TC)关系生成稀疏型词向量,运用PPMI (Positive Pointwise Mutual Information,即PPMI)和PDI (Positive Distance Information,即PDI)标准分别度量单词间语义相关性和句法模式关系,把执行TR策略后的关键词组合成N元词序列;3)基于句法树将一组N元词序列递归地组合成完整句子;4)运用深度学习模型训练出紧凑型的分布式词向量(Distributional Word Embeddings,即DWE),取代基于TC的稀疏型词向量,更准确、高效地度量单词间语义相关性。实验表明:多层TR策略可有效抑制语义信息噪声干扰,PDI、ST则可有效抑制句法结构噪声干扰,而DWE的引入也有助于减少词序列生成中的噪声干扰。论文工作的主要创新:创新1:对图像执行基于EMK、KDES模型的特征学习,并运用MKL模型完成特征后融合,生成能准确解释图像中关键纹理、形状特性的MKF、MK-KDES-1等新特征。创新2:构造SCCM,摘取描述图像内容的关键单词,基于N-gram模型约束单词间语义相关性及句法模式关系,生成语义信息丰富且连贯、流畅的修饰性短语,以作为句子的核心成分。创新3:提出基于关键词精化和句法树的标注模型:1)设计多层关键词精化策略,抑制语义信息噪声干扰;2)设计并优化WSBB模型,生成描述图像核心内容的N元词序列;3)基于句法树将一组N元词序列递归地组合成语义信息丰富、句法结构准确的句子,抑制句法结构噪声干扰并提升模型标注性能。