基于图文数据融合的分类方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:heinblue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展,数据量呈现爆炸式增长,数据类型不再局限于单一的文本,而是扩展到图像、音频、视频等多媒体数据,各类型数据往往以共生的方式传递信息。图文数据作为一种典型的共生数据类型,如何对其进行融合分类,挖掘图像和文本之间潜在的语义关系逐渐成为多媒体数据挖掘领域的研究热点。  图文数据在不同应用场景下的最佳分类方法各不相同,而现有融合算法大多适用于图文数据分类方法相同的情况,若将其应用于不同分类方法时由于分类决策基准不统一导致分类结果不理想,大幅降低了融合分类性能。本文针对图文数据分类方法不同时的融合分类问题展开研究,分别利用softmax多分类器和多分类支持向量机(SVM)实现图像和文本分类,并利用分类结果构建融合分类模型。此外,受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)作为softmax前期特征提取的常用手段,其特征质量对分类精确度的提升至关重要,而传统RBM算法性能受数据集稀疏性影响较大,因此本文对传统RBM算法进行了改进,并将其应用于图文数据融合分类过程中。  本文的主要研究内容与工作如下:  1.针对传统RBM算法性能受数据集稀疏性影响较大的问题,提出一种RBM的稀疏化特征学习方法(sRBM)。该方法依据归一化的输入数据均值确定数据集的稀疏系数,将稀疏系数大于阈值的稠密数据集自动转化为稀疏数据集,在不损失信息量的情况下实现输入数据的稀疏化。在MNIST和Attribute Discovery数据集上的实验发现,sRBM在稠密数据集中学习到的特征滤波器质量均优于RBM,对应置信网络的平均分类精确度相比RBM分别提升了1.18%和24.8%,且具有更高的稳定性。结果表明sRBM通过输入数据稀疏化有效提升了RBM的稀疏化特征学习性能。  2.针对图文数据融合分类中图像和文本分类决策基准不统一的问题,提出一种基于加权KNN的融合分类方法。首先,分别利用基于sRBM的softmax多分类器和多分类支持向量机(SVM)实现图像和文本分类,同时利用训练数据集各类别分类精确度加权后的图像和文本正确判别实例的分类决策值分别构建图像和文本KNN模型;再分别利用其对测试实例的图像和文本分类决策值进行预测,通过最邻近k个实例属于各类别的数目确定测试实例的分类概率,统一图像和文本的分类决策基准;最后利用训练数据集中图像和文本分类正确的数目确定测试实例中图像和文本分类概率的融合系数,实现统一分类决策基准下的图文数据融合。在Attribute Discovery数据集上开展实验,并与基准方法进行比较,实验发现,本文融合算法的分类精确度高于图像和文本各自的分类精确度,且平均分类精确度相比基准方法提高了4.45%;此外,本文算法对图文信息的平均整合能力相比基准方法提高了4.19%。结果表明,该方法能够在实验数据集上将图像和文本不同分类方法的分类决策基准统一化,实现了图文数据的有效融合,具有较强的信息整合能力和较好的融合分类性能。
其他文献
传统的身份识别技术在现代社会中开始暴露出其无法避免的安全性缺陷,市场亟需一种高效且易用的身份识别技术。而指纹识别作为最成熟的一种生物特征识别技术,具有可靠性高、使
学位
声纳是水下探测的重要手段,而侧扫声纳是水下探测与测绘的常用设备。合成孔径声纳是一种新型侧扫声纳,其方位理论分辨率不随目标距离的增加而降低,因此在水底测绘和目标识别等方
微载体细胞培养是一种实现贴壁型细胞在生物反应器中大规模悬浮培养的先进技术。该技术在国外早已成功被应用于多种疫苗、生物酶等生物制品的生产中。近年来,该技术逐渐在我国
芽胞杆菌是革兰氏阳性的需氧菌,在不利的环境中可形成胞子,能够耐受高温、酸碱以及机械挤压等不利因素,便于加工成饲料,进入肠道后可迅速复活,所以是一种合适的微生态类饲料
目的 动态随访孕妇妊娠期间甲状腺功能变化,探讨低甲状腺素血症(hypothyroxinemia,HT)对妊娠结局和新生儿的影响,明确孕期甲状腺功能筛查的合适时机及随访必要性.方法 前瞻性
数字图像在其形成、传输和记录过程中,由于成像系统、传输介质和记录设备的不完善往往使得获取的图像受到多种噪声的污染。其中,椒盐噪声对图像质量破坏最大,即使少量的噪声
学位
指纹识别作为生物识别技术最为成功的应用之一,近年来已得到快速的发展和普及。指纹预处理技术是指纹处理特征点提取的基础也是快速高效进行指纹识别的关键。在预处理中指纹
目前网络上有各种通信方式,有即时聊天通信软件-QQ、Gtalk、MSN,还有一些SNS交友社区的一些通信方式。这些通讯方式促进了人与人之间的联系。但是每个人使用的工具不一样就有