基于特征分析的数字化期刊元数据自动抽取算法

来源 :情报杂志 | 被引量 : 0次 | 上传用户:jxpyq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在对纸本期刊进行数字化过程中,元数据抽取是必不可少的步骤。传统的手工抽取需要大量的人力物力,效率很低。针对扫描期刊,提出了一种基于扫描页面特征分析的元数据自动抽取算法,分析扫描页的格式、结构、字体等特征,采用基于规则和有监督的机器学习方法进行抽取,实验表明该算法能够取得较高的准确率和召回率,同时显著地提高了元数据标引的效率。
其他文献
<正> 桃树结果期早,一般新植后2~3年开始结果,5~15年为结果盛期。桃树喜光性较强并且耐干旱,对土壤质地条件要求不严格,适宜种植范围很广泛。常规南方品种群适宜于年均温12~17℃
针对电子资源元数据的特征,重点探讨了实现电子资源元数据自动识别的有效途径,其目的是识别出符合标准的电子资源元数据。借鉴树匹配方法,构建了适合于电子资源元数据识别的
围绕企业信息系统实施全过程,从系统终端用户角度考虑信息系统实施时需采纳的创新,探索加强其在企业内扩散的策略,从而提高信息系统实施的效率。通过对实施各阶段的创新及其特点
江苏省武进市湖塘镇农民种菊走上了产业化经营之路,20年来,品种由10多个发展到300多个,数量由几百盆发展到去年的40余万
我们早在1994年就抢占了斯太尔车销售和服务市场。其原因有三方面:一是地理位置十分重要。因为上饶位于江西省东北部.东邻浙江.西接安徽.南连福建;二是上饶境内的矿石、散货急需重
分析了中文数据库作者字段的检索功能与检索现状,总结了目前存在的问题,探讨了利用后控制技术解决问题的可行性。根据中文数据库的特点,引入“作者特征码”的概念构建了基于后控
早酥梨自六月中下旬已陆续进入市场销售,比去年提早约十多天登场。 由于初市阶段上市量少,恰逢去年存货的河北水晶梨处在缺货时期,实为早酥梨上市最佳时期,早酥梨的初市价为
云南省广南县八宝镇村民蒙跃仁,前几年开了一家小卖店,生意很红火.近年来,这个村又有4家新店相继开业,蒙跃仁的小店生意就不如以前了.他意识到,一个村子开几家同样的小店肯定
期刊