半监督聚类集成方法及其应用研究

来源 :广西师范大学 | 被引量 : 4次 | 上传用户:hotter_day
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术和网络技术的迅猛发展,人们获取信息的能力和渠道得到极大的扩展。海量数据在丰富人们资讯的同时,也给信息的组织、查找和分析带来极大的挑战。如何快速、准确地从海量知识库中提取有用的信息,成为很有价值的研究课题。一方面,本文研究的聚类是数据分析的一个重要研究内容:寻找并利用输入数据集中潜藏的结构或者规律,按照最大化簇内相似性、最小化簇间相似性的原则,实现训练样本划分聚簇的预测。虽然数据收集方法的多样化和存储技术的快速发展使得收集数据变得相当容易,但这些数据大多没有类别标记,而在实际的某些应用中人们可以获得少量的标签信息,加上大数据时代下的数据对象抽象复杂,应现实需要和时代要求,至今已提出大量改进的创新理论和方法,其中以半监督聚类和聚类集成为代表的研究取得了丰硕的成果。半监督聚类集成是论文研究的重点。另一方面,图像是多媒体时代重要的产物。基于内容的图像检索能有效存储和管理海量的图像资源,然而它受到“语义鸿沟”制约,建立语义映射的图像标注成为多媒体领域研究的重要课题。现有图像标注效果在较大程度上依靠于图像分割和聚类技术,而分割方法难以突破、无监督聚类效果不佳,论文尝试从半监督聚类角度挖掘图像语义内容,对基于聚类的图像标注展开研究。论文首先分析聚类与半监督聚类的研究背景和现状;接着探讨半监督聚类集成关键技术;然后重点阐述提出的约束与度量相结合的半监督聚类集成方法及其在图像自动标注中的应用,详细解释方法的理论基础和建模过程,结合实验结果进行对比分析;最后对论文研究工作进行总结以及对进一步研究进行探讨和展望。论文取得的成果主要有:现有的半监督聚类算法主要有两类,基于约束的方法和基于度量的方法。这两类算法有自己的侧重点,但它们并不是完全分离开的,或者说它们也存在共生关系,因为在实际算法中,两个因素都考虑的话可以得到更令人满意的结果。目前的基于约束和度量的融合方法大部分是在同一个目标函数中实现两者优势互补,极少运用集成机制将两者整合到一致性函数中。本文提出约束和度量相结合的半监督聚类集成方法,分别采用基于约束的方法和基于度量的方法得到多个基聚类,最后运用集成策略将其整合求取最终结果。关于图像数据的度量,先前的方法大都只考虑像素固有特征。然而像素与它的邻域像素是紧密关联的,故在目标函数中考虑邻域空间信息是有必要也更合理的,目前通常采取的方法是计算均值、加权均值或统计算子等,但是这样得出的结果与实际特征之间仍然会存在或大或小的差距,为了缩小这样的差距,文中考虑一种新的方法,像素之间的距离由它们的固有特征和邻域空间信息共同决定,这一方法打破了传统的单一视角,更加准确地反映出像素之间的度量关系。准确的度量测度有助于聚类性能的提高。图像的内容往往具有复杂性、模糊性、抽象性和多义性等特点,如果只是仅仅依靠低层视觉特征对图像进行描述的说服力远远不够,这就需要将低层特征映射到高级语义,得到能够反映图像内容的语义概念。文中采用关键词分类法自动获得辅助半监督聚类的区域标注(监督信息),进而将提出的约束与度量相结合的半监督聚类集成方法与跨媒体相关模型结合,采用重采样和投票机制,实现图像自动标注,改善了标注性能。
其他文献
高通公司的BREW平台以其适用性和灵活的开发方法,受到了广大开发人员的广泛关注,在近年的应用开发过程中,已经形成了相对成熟的框架机制。大量优秀的应用已经进入了商用阶段,
概念语义相似度的测量是自然语言处理的一个重要的研究内容,它在信息检索、机器翻译、词义排歧、自动问答等领域都有广泛的应用,它是一个基础的研究课题。目前对概念语义相似
随着计算机技术、通信技术、控制技术及工业技术的发展,工业控制领域逐渐向信号数字化、控制智能化、通信网络化的开放式系统方向发展。现场总线与虚拟仪器技术在工业控制领
阈下信道作为一种典型的信息隐藏技术,是指在公开信道中建立的实现隐蔽通信的信道。利用阈下信道,通信双方可以在普通的数字签名中传递秘密信息,除通信双方以外的任何人均不
支持向量机(SVM)是在1995年由Vapnik等人提出的。支持向量机来源于统计学理论,并基于结构风险最小化原则。支持向量机与传统的学习方法相比具有避免局部最优解及过拟合等特点
随着大数据量的图像及视频文件的高质量显示在各种场合越来越突出的应用需求,大屏幕的显示环境已经成为一个常用的需求,计算机显卡的处理能力的日益发展已经能为整个显示提供
Internet已经成为目前世界上最大的信息资源库,但是网上信息资源纷繁芜杂,如何满足人们对快速、准确而全面获取信息的要求,已经成为摆在人们面前的一大难题。搜索引擎的出现
随着汽车行业的快速发展,汽车控制网络(简称车控网)在整个汽车设计过程中,变得越来越重要。缩短车控网的开发周期,降低车控网的开发成本对汽车开发非常重要。车控网的开发需要引入
随着硬件技术的迅猛发展带来了图形处理器的革新,这个原本只是用于图形数据处理的设备现在却变得举足轻重,它拥有高带宽和高度并行计算的能力使得在大规模数据集运算的应用上,它
随着互联网的应用与普及,网络安全问题成为人们关注的焦点。在已知的网络安全漏洞中,跨站攻击,SQL注入式攻击以及由整数溢出引发的缓冲区溢出漏洞近年来上升趋势最为明显,造成了