基于概率主题模型的图像场景分类研究

来源 :广西师范大学 | 被引量 : 1次 | 上传用户:icqn2007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息科学和技术的快速发展,互联网、多媒体、移动设备存储和传输的数据迅猛增长使这个高度信息化的时代充满生机与活力。以计算机和互联网为代表的高新技术,不断应用在现实生活的方方面面,产生了巨大的经济效益,提高了社会和人们生活的质量。在这些数据中,各种设备,尤其是移动设备,产生的图像是非常庞大的一类数据,并且数据量也在与日俱增,而基于图像的各种应用也成为了研究的热点,本文要研究的图像场景分类便是图像处理领域里一类非常有价值的课题。图像数据复杂多样,数量巨大,因此对研究也造成了很大困难。从图像分类提出至今,研究者已经提出了很多分类算法。而以潜在语义分析(Latent Semantic Analysis, LSA)、概率潜在语义分析(Probabilistic Latent Semantic Analysis, PLSA)和隐狄利克雷分布(Latent Dirichlet Allocation, LDA)为代表的主题分类模型是近年来研究的最多的,PLSA和LDA概率主题模型是本文研究的重点。本文首先介绍了图像场景分类的发展背景、研究现状及相关应用。接着介绍了本文用到的模型和技术,包括PLSA和LDA概率主题模型的工作原理,K近邻(K-Nearest Neighbor, KNN)和支持向量机(Support Vector Machine, SVM)分类器的工作原理,然后根据已有的模型和算法提出了改进模型,进行了场景分类实验并对结果进行了分析和对比。主要研究内容如下:一方面,本文提出了一种主题生成模型和判别模型混合的框架,将无监督的主题生成模型与有监督的分类器结合起来进行图像场景分类。在底层特征提取时,将颜色、空间和形状特征结合,量化形成视觉词和视觉词典。提取空间特征时使用了改进的链码法表示全局空间特征,而对于颜色特征,分别在RGB、HSV和Lab颜色空间分块提取局部颜色特征。PLSA模型作为中间表示层,被用来降低特征向量的维度,并得到训练图像或测试图像的视觉主题分布。在进行分类判别时,采用了一种混合分类器KNN-SVM,对通过PLSA模型处理后的潜在主题的概率分布进行分类判别。另一方面,本文改进了LDA模型并应用于图像场景分类中。特征提取时加入了SIFT特征,分块提取局部特征再计算全局视觉词,并与颜色、空间形状等特征融合;分类判别时应用自己提出的混合分类器KNN-SVM。进行分类实验时,取图像数据集中的一部分作为训练图像集,训练PLSA和LDA模型的最优参数,提取视觉词并得到潜在主题的概率分布;而图像集中剩下的部分则用来测试和检验提出的模型的分类效果。最后对实验结果进行了分析,比较了不同特征,不同分类器,不同主题模型条件下的平均分类准确率,比较了它们对分类效果的影响。实验结果表明本文的模型提高了分类平均准确率,并且这种实验对比有利于以后对场景分类进行更深入的研究。
其他文献
目的:探讨品管圈活动在提高留置鼻胃管一次插管成功率中的作用.方法:成立品管圈活动小组,通过现状调查了解本科室鼻胃管一次插管成功率的现状,进行原因分析,拟定对策,组织实
目的:调查广东省紧急医学救援队护士实践能力体系建设现状,探索其应对策略.方法:采用问卷调查法对广东省紧急医学救援队100例护士进行问卷调查,并将数据纳入统计软件进行分析
In this paper,the robust stability issue of switched uncertain multidelay systems resulting from actuator failures is considered.Based on the average dwell time
随着电子纸显示技术、无线网络技术以及网络数字内容的发展,具备无线通讯功能的手持移动阅读终端逐渐成为了一种新兴的潮流,而伴随着Push技术的日新月异,向随身移动终端推送
海洋蕴藏着非常丰富的资源,是一个天然的宝库。我国拥有300多万平方公里海域和绵延1.8万海里的海岸线,在几千公里的大陆架上蕴藏着丰富的石油和天然气。然而,我国并不是海洋
网格被认为是下一代互联网,近年来网格计算技术的研究和开发热潮吸引了越来越多的人员和机构参加。随着Web技术的发展与影响,网格计算通过标准化的网格服务集成地理上分布的
高职教育集团教师在对学生进行课堂教学时,要坚持做到优化专业课程,加强实践技能,推进城乡统筹和校园管理标准化这几大关键方面,不断提高高职学生的学习兴趣,提高高职教育集
随着时代的不断发展,数字媒体时代也进入全新时代,其中数字虚拟技术由初步形成到现在已走向社会的各个角落,数字虚拟现实技术的创作方法及灵感来源得到了广大人民的喜爱.
数据挖掘是近年来数据库领域中出现的一个新兴研究热点,它是从数据库的大量数据中提取隐含的、未知的、具有潜在价值的信息和知识的过程。进行数据挖掘的方法有很多,基于粗糙
医疗卫生行业政策性强,专业性强,实践性强,要想成为医疗卫生报道领域的行家里手,最好的办法是与医护人员、病员交朋友.另外,多听医学学术讲座,将积累的素材及时剪贴成册,等等