批量图文文档的摹本识别

来源 :电脑与信息技术 | 被引量 : 11次 | 上传用户:purpleplain
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于数据库的图文文档的摹本识别是办公自动化的一个重要研究内容。文章利用多元统计中的聚类分析 ,提出了一种对批量到达的图文文档进行摹本识别的方法。该方法首先把已读入计算机的单页图文文档转换为单色位图 ,给出若干互不相交的同心圆盘 (圆盘的中心按页的边缘计算 ) ,计算出各轴像素密度 (各圆环内“on”象素的个数 )作为图形的特征向量。在页面的特征向量之间建立一种距离 ,再进行聚类分析以识别文档的摹本。通过对从网上下载的批量图形文档利用 MATL AB进行多次仿真实验 ,单页文档的正确分类率达到了 85
其他文献
为高效地求解多目标流水车间调度问题,提出了一种多目标混合遗传算法,此算法将局部搜索融入进化计算中,采用非劣解并行局部搜索策略,并依据基于Pareto支配关系的个体排序数和
据中国证监会网站消息,证监会在答复十二届全国人大四次会议第1502号建议时提到,将采取多种措施拓宽中小企业融资渠道,降低融资成本。节能环保科技型中小企业可以充分利用资本市
利用建立的基尼系数降水分布不均匀性模型,对延安市和榆林市1961—2010年的降水量、基尼系数和洛伦茨不对称系数的系列进行研究,并用Mann—Kendall方法趋势分析和检验。研究
综合教务管理系统的设计是一项复杂的系统工程,为了保证系统的顺利完成,可利用UML(Unified Modeling Language)进行系统的建模设计。文章演示了在系统的开发中如何使用UML进行
计算机仿真中常用到仿真单元位位姿和形状变换。文章假设在变形时不产生新的表面或互相重叠的情况下,采用曲线坐标系描述仿真单元体内每一点位置,并讨论了选用坐标系的两种方法
《关于推进环保领域PPP项目实施的提案》作为今年全国工商联团体提案之一,主要在完善资源环境类PPP项目招投标、定调价、合同履约等方面的管理制度,促进项目落地实施方面提出建
传统互联网页面是基于HTML语法结构的,这种结构适合于计算机上的显示.但页面所表达的含义需要用户在浏览的时候加以识别,这对于信息的检索和实现知识的共享是非常不便的。文章介
通过分析短波通信中分布式干扰的应用,研究了分布式干扰设备的组成及其关键技术和随机二元码调制信号的特性,在此基础上,利用Matlab软件中的Simulink模块仿真分析了分布式干扰系
文章分析了对软件进行安全保密性测试的必要性,总结了对B/S结构软件进行安全保密性测试的方法及经验,对测试工作有引导作用。
传统关联规则挖掘算法往往会产生过多规则而难以被决策者所采用。针对该问题,文章从应用的角度提出了最简有效关联规则,其特点是采用以后项为导向的挖掘方式,同时追求规则前后项