论文部分内容阅读
随着信息技术和网络技术的迅猛发展,人们获取信息的能力和渠道得到极大的扩展。海量数据在丰富人们资讯的同时,也给信息的组织、查找和分析带来极大的挑战。如何快速、准确地从海量知识库中提取有用的信息,成为很有价值的研究课题。一方面,本文研究的聚类是数据分析的一个重要研究内容:寻找并利用输入数据集中潜藏的结构或者规律,按照最大化簇内相似性、最小化簇间相似性的原则,实现训练样本划分聚簇的预测。虽然数据收集方法的多样化和存储技术的快速发展使得收集数据变得相当容易,但这些数据大多没有类别标记,而在实际的某些应用中人们可以获得少量的标签信息,加上大数据时代下的数据对象抽象复杂,应现实需要和时代要求,至今已提出大量改进的创新理论和方法,其中以半监督聚类和聚类集成为代表的研究取得了丰硕的成果。半监督聚类集成是论文研究的重点。另一方面,图像是多媒体时代重要的产物。基于内容的图像检索能有效存储和管理海量的图像资源,然而它受到“语义鸿沟”制约,建立语义映射的图像标注成为多媒体领域研究的重要课题。现有图像标注效果在较大程度上依靠于图像分割和聚类技术,而分割方法难以突破、无监督聚类效果不佳,论文尝试从半监督聚类角度挖掘图像语义内容,对基于聚类的图像标注展开研究。论文首先分析聚类与半监督聚类的研究背景和现状;接着探讨半监督聚类集成关键技术;然后重点阐述提出的约束与度量相结合的半监督聚类集成方法及其在图像自动标注中的应用,详细解释方法的理论基础和建模过程,结合实验结果进行对比分析;最后对论文研究工作进行总结以及对进一步研究进行探讨和展望。论文取得的成果主要有:现有的半监督聚类算法主要有两类,基于约束的方法和基于度量的方法。这两类算法有自己的侧重点,但它们并不是完全分离开的,或者说它们也存在共生关系,因为在实际算法中,两个因素都考虑的话可以得到更令人满意的结果。目前的基于约束和度量的融合方法大部分是在同一个目标函数中实现两者优势互补,极少运用集成机制将两者整合到一致性函数中。本文提出约束和度量相结合的半监督聚类集成方法,分别采用基于约束的方法和基于度量的方法得到多个基聚类,最后运用集成策略将其整合求取最终结果。关于图像数据的度量,先前的方法大都只考虑像素固有特征。然而像素与它的邻域像素是紧密关联的,故在目标函数中考虑邻域空间信息是有必要也更合理的,目前通常采取的方法是计算均值、加权均值或统计算子等,但是这样得出的结果与实际特征之间仍然会存在或大或小的差距,为了缩小这样的差距,文中考虑一种新的方法,像素之间的距离由它们的固有特征和邻域空间信息共同决定,这一方法打破了传统的单一视角,更加准确地反映出像素之间的度量关系。准确的度量测度有助于聚类性能的提高。图像的内容往往具有复杂性、模糊性、抽象性和多义性等特点,如果只是仅仅依靠低层视觉特征对图像进行描述的说服力远远不够,这就需要将低层特征映射到高级语义,得到能够反映图像内容的语义概念。文中采用关键词分类法自动获得辅助半监督聚类的区域标注(监督信息),进而将提出的约束与度量相结合的半监督聚类集成方法与跨媒体相关模型结合,采用重采样和投票机制,实现图像自动标注,改善了标注性能。