基于特征学习与关键词精化的图像句子标注研究

来源 :武汉大学 | 被引量 : 1次 | 上传用户:fkj1022
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web上包含大量异构媒体,如图像、文本、视频等,它们之间存在语义关联,分析并利用这些关联有助于更好地组织、管理及检索多媒体资源。近年,电子商务迅猛发展,它为探寻异构媒体间的语义关联提供了良好的试验平台:为商品标注语义信息丰富且连贯、流畅的文本,即实现图像句子标注,建立图像和文本之间稳定、可靠的跨媒体关联。研究意义:1)同时关注机器视觉和自然语言处理两个领域内的研究成果,并促使领域间方法、模型、算法的相互融合,进而进发新的思想火花,推动理论研究不断前进;2)有助于转变电子商务网站的数据管理方式:在自动图像句子标注基础上,仅需加入少量人工修订便可高效、准确地发布或更新海量商品信息;3)有助于提高图像检索查全率,改善用户的检索交互体验。图像句子标注(面向商品)存在的主要问题:1)图像特征学习方法偏简单。识别图像中的关键视觉特性是标注的重要前提,应抽取判别能力强、解释能力好的特征,以准确描述图像内容;2)句子连贯性有待提升。连贯性是句子可读性、可理解性的重要保障,应兼顾语义相关性和句法模式关系,生成连贯、流畅且蕴含丰富语义信息的句子;3)标注中噪声干扰严重。抑制噪声干扰能改善标注性能,应设计有针对性的噪声抑制策略,削弱噪声对标注的不利影响。故本文从如下三个方面展开研究:1、特征学习是图像句子标注的重要前提。提出基于高效匹配核(Efficient Match Kernels,即EMK)和核特征(Kernel Descriptors,即KDES)模型的特征学习策略:1)基于EMK模型抽取图像SIFT-EMK特征,采用多核学习(Multiple Kernel Learning,即MKL)模型对形状、纹理、SIFT-EMK等特征做后融合,生成新特征MKF (Multiple Kernel Feature,即MKF);2)基于KDES模型抽取图像Grad-KDES、Shape-KDES、Color-KDES特征,采用MKL模型对KDES特征做后融合,生成新特征MK-KDES-J(J=1,...,4)。实验表明:MKF、MK-KDES-1等特征能准确刻画图像中的关键视觉内容,为生成连贯、流畅的句子奠定重要基础。2、句子的连贯性是其可读性、可理解性的重要保障,它也是评判标注模型优劣的关键指标。设计自然语言生成(Natural Language Generation,即NLG)模型,以构造修饰性短语(N元词序列),连贯、流畅地描述图像内容:1)基于TF-IDF特征及图像间视觉相似度,设计语义相关度计算模型(Semantic Correlation Computing Model,即SCCM),摘取描述图像内容的关键词。采用N-gram模型约束单词间语义相关性和句法模式关系,生成语义信息丰富且连贯、流畅的修饰性短语;2)设计词序列“拼积木”(Word Sequence Blocks Building,即WSBB)模型:采用SCCM摘取关键词,词向量化单词并基于COS标准度量单词间语义相关性,并运用句法模式约束单词间句法关系。最终,WSBB模型输出一组N元词序列(N=1,...,4)。实验表明:N-gram, WSBB等模型均有助于生成连贯、流畅的短语(词序列),以作为句子的核心成分。3、句子标注中存在噪声干扰,噪声包括语义信息噪声和句法结构噪声。提出基于关键词精化(Tag Refinement,即TR)和句法树(Syntactic Tree,即ST)的标注模型:1)构建多层TR策略:①执行第1次TR:在SCCM中,用绝对排序(Absolute Rank,即AR)特征替换TF-IDF特征,以提升正确关键词的权重。②执行第2次TR:在WSBB模型中,设置单词的语义相关度评分阈值γ,进一步筛选与图像内容语义相关的单词;2)基于单词上下文(Term-Context,即TC)关系生成稀疏型词向量,运用PPMI (Positive Pointwise Mutual Information,即PPMI)和PDI (Positive Distance Information,即PDI)标准分别度量单词间语义相关性和句法模式关系,把执行TR策略后的关键词组合成N元词序列;3)基于句法树将一组N元词序列递归地组合成完整句子;4)运用深度学习模型训练出紧凑型的分布式词向量(Distributional Word Embeddings,即DWE),取代基于TC的稀疏型词向量,更准确、高效地度量单词间语义相关性。实验表明:多层TR策略可有效抑制语义信息噪声干扰,PDI、ST则可有效抑制句法结构噪声干扰,而DWE的引入也有助于减少词序列生成中的噪声干扰。论文工作的主要创新:创新1:对图像执行基于EMK、KDES模型的特征学习,并运用MKL模型完成特征后融合,生成能准确解释图像中关键纹理、形状特性的MKF、MK-KDES-1等新特征。创新2:构造SCCM,摘取描述图像内容的关键单词,基于N-gram模型约束单词间语义相关性及句法模式关系,生成语义信息丰富且连贯、流畅的修饰性短语,以作为句子的核心成分。创新3:提出基于关键词精化和句法树的标注模型:1)设计多层关键词精化策略,抑制语义信息噪声干扰;2)设计并优化WSBB模型,生成描述图像核心内容的N元词序列;3)基于句法树将一组N元词序列递归地组合成语义信息丰富、句法结构准确的句子,抑制句法结构噪声干扰并提升模型标注性能。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
“不要让孩子输在起跑线上”已经成为中国家长的第一理念,随之而来的是中国形式的补习班充斥市场,也占据了孩子们几乎所有课余时间。文章着力探讨这一理念对学生自主学习能力
本论文的研究内容集中在Rough集理论以及Rough分析在数据挖掘领域中的若干应用。Rough集理论是一种新型的处理不确定性知识的数学工具,围绕着数据挖掘领域存在的问题,本文利用R
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
期刊
在积极心理学视野下探讨特殊教育教师情绪智力对工作家庭冲突与工作投入之间关系的调节作用。采用工作家庭冲突量表、情绪智力量表和工作投入量表,通过整群取样选取河南省7所
2013年10月13日,江西省教育招生考试院出台了《江西省2014年普通高校艺术类专业招生工作规定》,其中变化最大也是对艺考生影响最大的便是提高艺术类文化课的录取分数线。从20
人TNF-α诱导蛋白1(TNFAIP1)又名B12和hBACURD2,是第一个被鉴定出的TNF-α诱导产生的蛋白,属于hBACURD家族和PDIP1家族成员。人TNFAIP1基因首次(1992年)在TNF-α刺激、环己酰亚胺
<正>艺术简介:李云峰,字玉竹,号容世道主,1965年出生,陕西渭南人。现任国务院国资委监视(巡视员),中国榜书家学会和世界榜书家研究会秘书长。自幼受祖辈们的艺术熏陶,从小酷
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
摘要:如何提高航海教育质量是现阶段航海教育的焦点问题。就烟台大学海洋学院近几年在教学过程中坚持的学导式教学方法从专业导论课程、教学认识实习以及专业课程讲授三个方面进行了介绍,激发学生的学习热情,培养学生分析问题和解决问题的能力,从而提高航海教育的质量。  关键词:学导式教学法;航海教学;专业导论课程;教学认识实习  中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(201