论文部分内容阅读
为保护民国时期珍贵文献,上海图书馆于2008年启动民国期刊数字化加工项目。该项目现已完成了一万多种、二十余万册(期)民国期刊的数字化工作。在项目进行过程中,由于民国期刊出版样式的多样化现状,工作人员不断改进加工流程与系统,降低人工成本、加快工作效率、提高产品质量,保证了项目的顺利实施,为各类文献数字化工作提供了借鉴。
民国时期文献指形成于1911年至1949年这一特定历史时期的各种知识和信息载体。由于正值中国社会急剧转型,因此民国文献具有鲜明的时代特征、学术价值和现实意义。然而限于诸多原因,目前民国文献保护面临诸多困难,如家底不清、保存条件不佳、酸化老化程度加剧、缺乏原生性保护、再生性保护进展缓慢等。因此,为保护原件内容的文化价值,必需借助数字化方式使已脆化的原件能为用户所提取阅读,并降低珍贵文献丢失与破损的风险,扩大其利用范围。为此,上海图书馆启动了民国期刊数字化加工项目。
数字化加工系统流程
民国期刊数字化加工系统自2008年开始研发,流程如图1。自图像扫描开始,系统会自动分配一个工作包ID作为基本加工单位,项目加工人员依次对其进行图像处理、版面分析、识别、纵校、横校和版面还原等工序。
图1 民国期刊数字化加工项目流程图
扫描工序是通过系统自动获取扫描仪后,将纸质件顺次扫描为电子图像,并在扫描完成后,打包上传至服务器进行图像处理。为提高图像的OCR识别率,在图像处理中,需要进行旋转、纠斜、去噪点、去污等操作,图像质量控制程序也会自动监测处理质量。然后进入版面分析工序,简单来说,就是划框并标识该框属性,如横栏、竖栏、表格、图像、英文等。在此工序中,系统有自动版面分析和手动版面分析两种模式。系统会根据划框的属性将文字、数字、英文等图像信息转化为计算机文字和电子文字,以利于保存和阅读。
为提高识别精确度,在识别后还将进行纵校和横校。纵校即将一个图像或若干个图像中识别成同一个字的文字图像并列显示,并以突出颜色标出可疑字,便于操作员发现错误从而进行修改。而横校则需人工逐一校对,系统会将单一文字、数字、外文图像和识别出的文字分别对应列出。加工人员据此人工对比,最终确定文字。完成上述工序后,工作人员将识别并修改好的文本分篇并标识标签属性,生成可供计算机阅读、查询、检索的RTF、PDF、HTML、SGML/XML格式的数字文档,完成整本(册)期刊的数字化流程。
文本多样性成加工难点
经过反复实践,系统在加工过程中主要会遇到三大问题。一是文献管理难。上海图书馆是大型综合性研究型公共图书馆,现藏中外文献5300余万册(件),原加工系统不能提供文献管理功能。当出现几个工作人员同时加工一种期刊的情况时容易造成重复记录,信息差错率很高,而且一旦出错,整个工作包必须重新加工。如果没有在后续工序中发现错误,将造成数据重复、错误等问题,无疑影响整个项目的质量。
二是扫描效果不佳。民国时期正是手工造纸向近代机械造纸和印刷过渡的时期,造纸材料混杂,制浆工艺落后。民国时期纸张寿命一般是50年至100年。上海图书馆民国文献正面临纸张酸化、老化严重,缺乏韧性,大量图书变碎掉渣的情况。整本完整的图书很难寻觅,尤其是抗战文献破损率达90%。加上部分纸质过薄,且以油印方式印刷,因此透字、污损严重,使文献扫描异常困难。在考虑了扫描质量、图像清晰度、存储空间等因素后,项目使用平板扫描仪,采用300DPI的黑白扫描方式,用tif格式保存文件。遇到黄页、透字、或者黑白扫描效果不佳的图片则采用彩色扫描。虽然原加工系统在连续扫描时效果很好,但由于民国期刊的特殊性,在实际扫描过程中,人工干预程度高,连续扫描中断多,图片质量不佳,扫描效率低下,日产量一直在600页左右,产量和质量均不能达到预期目标。此外,由于部分图片已经提前扫描完成,将这些图片导入系统时,就需要手工将图像以期(册)为单位逐一在扫描工序中上传至系统,经常会发生重复上传数据、漏传、工作包描述张冠李戴等错误,造成后续工序的延误乃至数据错误。
三是后期识别错误率高。在图像处理工序中,操作修改的功能性差,纠斜只能通过拉水平线完成,而裁剪、重命名等几个简单的功能不能批量操作,效率低下。并且,与现刊书籍的高识别率相比,民国期刊因纸质、保存状况、印刷技术、部分手写体出版等原因,识别率最高只能达到80%左右,且半数以上的图像识别率在60%以下。同时,由于民国的文字还不规范,汉字简繁混合、异形字、错别字很多,纵校的批量性优势难以体现,不能降低横校的工作量。且标签信息(标题、作者、团体、作者、栏目、备注等)的标引工作没有工序进行校验,导致成品有多达15%的差错率。总之,由于识别产量低下,在设计项目人工额定的情况下,难以保证工作进度。
因势利导,完善系统
为增加产量,提高质量,工作人员在综合考虑各方意见后对加工系统进行了以下修改。首先是建立“划到系统”。“划到系统”是上海图书馆为更好管理民国期刊刊名库而单独设计开发的一个系统,使刊名库与全国报刊索引平台实现无缝对接。
其次是重新定义扫描工序、识别工序和版面还原。经过重新定义,扫描工序能自动提取指定目录下的各子文件夹中所有图像,根据目录依次上传服务器,并在工作包描述记录文件目录。而重新定义识别工序后,增加了标签信息的检验。虽然相当于增加了10%的工作量,但由于将标签信息提前带入流程,使得后续校对工序可以同时帮助校验标签信息,从而在总体上提高了工作效率。在重新定义版面还原后,可直接通过识别工序的标引信息,自动进行版面还原,按要求生成PDF和TXT文件。因为非人工操作,从而杜绝了意外错误。
再次,停用纵校功能,直接进行横校,使工作效率提高了35%左右。而在增加手写模块复制功能后,将高频率使用的“标签信息”+“内容”成组保存,在需要时可直接复制到手写输入区,提高了输入效率。在所有加工完成后,还将进行整体合理性检查、抽样人工检查,从而控制产品质量。
通过以上措施,民国期刊数字化流程改为划到、扫描、图像校对、扫描上传、识别、横校、版面还原、质量监控八个工艺流程。在加工过程中,以80%的项目预设人工完成了全部任务,取得了良好效果。
民国期刊等老旧文献数字化加工项目都存在文献本身的不确定性和特殊性,固定的加工流程不能满足所有文献数字化的加工要求,因此在实践中需要一直不断完善现有加工系统,用数字化方式延续文化的生命。
民国时期文献指形成于1911年至1949年这一特定历史时期的各种知识和信息载体。由于正值中国社会急剧转型,因此民国文献具有鲜明的时代特征、学术价值和现实意义。然而限于诸多原因,目前民国文献保护面临诸多困难,如家底不清、保存条件不佳、酸化老化程度加剧、缺乏原生性保护、再生性保护进展缓慢等。因此,为保护原件内容的文化价值,必需借助数字化方式使已脆化的原件能为用户所提取阅读,并降低珍贵文献丢失与破损的风险,扩大其利用范围。为此,上海图书馆启动了民国期刊数字化加工项目。
数字化加工系统流程
民国期刊数字化加工系统自2008年开始研发,流程如图1。自图像扫描开始,系统会自动分配一个工作包ID作为基本加工单位,项目加工人员依次对其进行图像处理、版面分析、识别、纵校、横校和版面还原等工序。
图1 民国期刊数字化加工项目流程图
扫描工序是通过系统自动获取扫描仪后,将纸质件顺次扫描为电子图像,并在扫描完成后,打包上传至服务器进行图像处理。为提高图像的OCR识别率,在图像处理中,需要进行旋转、纠斜、去噪点、去污等操作,图像质量控制程序也会自动监测处理质量。然后进入版面分析工序,简单来说,就是划框并标识该框属性,如横栏、竖栏、表格、图像、英文等。在此工序中,系统有自动版面分析和手动版面分析两种模式。系统会根据划框的属性将文字、数字、英文等图像信息转化为计算机文字和电子文字,以利于保存和阅读。
为提高识别精确度,在识别后还将进行纵校和横校。纵校即将一个图像或若干个图像中识别成同一个字的文字图像并列显示,并以突出颜色标出可疑字,便于操作员发现错误从而进行修改。而横校则需人工逐一校对,系统会将单一文字、数字、外文图像和识别出的文字分别对应列出。加工人员据此人工对比,最终确定文字。完成上述工序后,工作人员将识别并修改好的文本分篇并标识标签属性,生成可供计算机阅读、查询、检索的RTF、PDF、HTML、SGML/XML格式的数字文档,完成整本(册)期刊的数字化流程。
文本多样性成加工难点
经过反复实践,系统在加工过程中主要会遇到三大问题。一是文献管理难。上海图书馆是大型综合性研究型公共图书馆,现藏中外文献5300余万册(件),原加工系统不能提供文献管理功能。当出现几个工作人员同时加工一种期刊的情况时容易造成重复记录,信息差错率很高,而且一旦出错,整个工作包必须重新加工。如果没有在后续工序中发现错误,将造成数据重复、错误等问题,无疑影响整个项目的质量。
二是扫描效果不佳。民国时期正是手工造纸向近代机械造纸和印刷过渡的时期,造纸材料混杂,制浆工艺落后。民国时期纸张寿命一般是50年至100年。上海图书馆民国文献正面临纸张酸化、老化严重,缺乏韧性,大量图书变碎掉渣的情况。整本完整的图书很难寻觅,尤其是抗战文献破损率达90%。加上部分纸质过薄,且以油印方式印刷,因此透字、污损严重,使文献扫描异常困难。在考虑了扫描质量、图像清晰度、存储空间等因素后,项目使用平板扫描仪,采用300DPI的黑白扫描方式,用tif格式保存文件。遇到黄页、透字、或者黑白扫描效果不佳的图片则采用彩色扫描。虽然原加工系统在连续扫描时效果很好,但由于民国期刊的特殊性,在实际扫描过程中,人工干预程度高,连续扫描中断多,图片质量不佳,扫描效率低下,日产量一直在600页左右,产量和质量均不能达到预期目标。此外,由于部分图片已经提前扫描完成,将这些图片导入系统时,就需要手工将图像以期(册)为单位逐一在扫描工序中上传至系统,经常会发生重复上传数据、漏传、工作包描述张冠李戴等错误,造成后续工序的延误乃至数据错误。
三是后期识别错误率高。在图像处理工序中,操作修改的功能性差,纠斜只能通过拉水平线完成,而裁剪、重命名等几个简单的功能不能批量操作,效率低下。并且,与现刊书籍的高识别率相比,民国期刊因纸质、保存状况、印刷技术、部分手写体出版等原因,识别率最高只能达到80%左右,且半数以上的图像识别率在60%以下。同时,由于民国的文字还不规范,汉字简繁混合、异形字、错别字很多,纵校的批量性优势难以体现,不能降低横校的工作量。且标签信息(标题、作者、团体、作者、栏目、备注等)的标引工作没有工序进行校验,导致成品有多达15%的差错率。总之,由于识别产量低下,在设计项目人工额定的情况下,难以保证工作进度。
因势利导,完善系统
为增加产量,提高质量,工作人员在综合考虑各方意见后对加工系统进行了以下修改。首先是建立“划到系统”。“划到系统”是上海图书馆为更好管理民国期刊刊名库而单独设计开发的一个系统,使刊名库与全国报刊索引平台实现无缝对接。
其次是重新定义扫描工序、识别工序和版面还原。经过重新定义,扫描工序能自动提取指定目录下的各子文件夹中所有图像,根据目录依次上传服务器,并在工作包描述记录文件目录。而重新定义识别工序后,增加了标签信息的检验。虽然相当于增加了10%的工作量,但由于将标签信息提前带入流程,使得后续校对工序可以同时帮助校验标签信息,从而在总体上提高了工作效率。在重新定义版面还原后,可直接通过识别工序的标引信息,自动进行版面还原,按要求生成PDF和TXT文件。因为非人工操作,从而杜绝了意外错误。
再次,停用纵校功能,直接进行横校,使工作效率提高了35%左右。而在增加手写模块复制功能后,将高频率使用的“标签信息”+“内容”成组保存,在需要时可直接复制到手写输入区,提高了输入效率。在所有加工完成后,还将进行整体合理性检查、抽样人工检查,从而控制产品质量。
通过以上措施,民国期刊数字化流程改为划到、扫描、图像校对、扫描上传、识别、横校、版面还原、质量监控八个工艺流程。在加工过程中,以80%的项目预设人工完成了全部任务,取得了良好效果。
民国期刊等老旧文献数字化加工项目都存在文献本身的不确定性和特殊性,固定的加工流程不能满足所有文献数字化的加工要求,因此在实践中需要一直不断完善现有加工系统,用数字化方式延续文化的生命。