基于卷积神经网络的文档图像分类与检索方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:chungpy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和互联网技术的发展,图像采集终端的多样化普及化,越来越多的文档以图像的形式被收集和处理。设计合适的文档图像处理系统以面对不断增长的文档图像数量,成为研究的热点。文档图像的分类与检索是文档图像处理中的关键任务。本文围绕文档图像的分类与检索展开深入研究,主要工作如下:1)提出基于卷积神经网络(Convolutional Neural Network,CNN)和支撑向量机的文档图像分类方法。利用CNN从底层像素中获得高层视觉特征,结合支撑向量机进行文档图像分类任务。参考很多学者将深度卷积神经网络应用到不同机器视觉领域的做法,本文选用三种经典卷积网络结构,在两个样本数不一的开源数据集上测试。实验表明该分类方法具有良好的表达能力,并且能方便地在不同类别数据集间进行迁移。2)提出基于CNN和层次K均值树算法的文档图像检索方法。利用CNN从原始像素中获得抽象特征,采用主成分分析(Principal Component Analysis,PCA)算法进行特征降维,所得特征作为文档图像的索引特征。检索阶段采用近似最近邻搜索的方法,提高对大型数据集的检索效率。实验证明该检索方法能达到更高的查准率和更少的检索时间,具备较高的实际应用价值。实验结果表明,本文采用的基于卷积神经网络的方法性能优异,分类的准确率和检索的查准率均能满足现有需求。
其他文献
腐败治理是中国共产党必须回答的现实议题。严苛惩腐激发了巨大的廉洁正能量;但是,"廉而不为""廉而失能"也随之显现。实际上,腐败治理的根本目标不仅仅在于"廉洁",还在于"廉
随着信息技术的发展,人们逐渐将文字编辑工作转移到计算机中,其至移动设备中进行。传统的电子编辑器虽然有着较为强大的编辑功能,但是缺少便捷的协同机制。使用软件前,用户需
壮医莲花针拔罐疗法是将壮医莲花针叩刺与拔火罐相结合,用于活血化瘀、排毒解毒、祛瘀生新的一种治病技法。壮医莲花针拔罐疗法操作简单,疗效可靠,且CFS患者尚乐于接受。因此,值
信用风险作为最主要风险之一,对其有效的度量与管理不仅有利于微观经济个体的健康发展,也有利于宏观经济环境的稳定运行。伴随金融创新的推进,信用风险理论与度量方法的研究
文章从控股股东的视角,以我国2002~2006年民营上市公司为研究对象,实证检验了控股股东现金流权、控制权与现金流权的分离程度对公司股利支付水平的影响。研究发现:控股股东现
交通是城市最重要的基础产业之一,因此道路交通安全是影响城市发展与扩张的重要环节。但是目前的城市扩张模式多采取修建更多的基础设施来解决交通拥堵的问题,而研究表明,这
随着中国“一带一路”倡议的逐步推进,泰国与中国之间的经济贸易越来越频繁。作为“21世纪海上丝绸之路”中的重要国家,泰国与中国的经济贸易往来除了需要市场的拉动,还需要
留守儿童问题是阻碍社会主义新农村建设的关键问题之一,很多学者从各自的专业领域对这一现象进行了探索,但是作为当下留守儿童问题的一个重要方面,刑事司法中的留守儿童救济
以纳维斯托克斯方程组、大气平流扩散方程、湍流动能及湍流动能耗散率方程组为基础,采用伪不定常方法,建立了一个数值模式,利用该模式对城市湍流边界层内流场结构及汽车排放
<正>中山市中小学卫生保健所(以下简称"保健所")自1988年成立以来,主要负责全市中小学校的卫生与健康促进工作业务指导,以及完成所辖区域20万名中小学生每年常规体检任务。近