论文部分内容阅读
目前,随着信息技术的不断发展,多媒体资源大量膨胀,进而满足用户对多媒体数据的检索成为了信息服务的挑战之一。图像数据作为多媒体数据的重要组成部分,其已经成为在教育、科技等诸多领域的进行信息传播的主要形式,因此图像的标记和检索一直是信息服务领域的研究热点。
图像标记和图像检索的研究目前已经取得了长足的进步,但是图像检索的性能与人们的期望还尚存差距。一方面传统的标记算法将花费大量的人力资源和时间成本,另一方面传统的方法很难弥合用户的检索意图与检索结果的语义差。
从以上两点出发,本文提出了基于半监督学习和主动学习融合的图像检索方法。旨在使用半监督学习有效提高大规模图像检索中自动补充标记样本数量,使用主动学习用于纠正检索结果中错误检索结果数据且使用该算法标记和检索的性能。
本课题提出了基于多视图学习和主动学习的图像检索方案用以解决以上问题,本文的主要研究内容和主要研究特色如下:
(1)在实际图像检索应用中,由于使用少量已标记图像数据为训练样本训练模型,并用于标记大量未识别图像,往往会导致因训练样本的不充分造成分类器效率低下的情况。本文提出使用半监督学习的方法,引入机器自动标记高可信样本,用于迭代补充新的自动化标记样本用于分类器训练,并提高分类器工作效率。
(2)大量的实际应用表明,在图像检索过程中得到的检索结果与用户的真实检索意图存在一定的差距;同时,分类器在标记图像样本时常常会由于分类器训练不充分,导致较多误分类结果的出现。因此,本文使用了反馈起调节作用的主动学习,可将部分由分类器选出的低置信度模糊数据进一步通过人工二次标定后补充入训练样本集。
(3)在实验过程中,我们根据图像具备的多维度表达特征,采用多视图学习和主动查询融合的训练检索框架,融合主动学习和半监督学习,建立互补的学习机制,可分别处理低置信度样本和高置信度样本,增加分类器的鲁棒性,提高检索效率。
本文进行了大量基于公开图像数据集的实验,并且与诸多已知算法进行比较。实验结果表明我们提出的多视图学习与主动查询的算法有利于降低图像标记代价,提高图像检索准确性,与当前其他算法相比具备明显的优势。