资源库数据建设:数字出版的重中之重

来源 :出版参考 | 被引量 : 0次 | 上传用户:qvodsbsbsbsbsbs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  在数字化转型升级过程中,中国建筑工业出版社实现了全媒体形态的预期目标。转型升级内容覆盖了从选题策划、内容组织建设到产品研发、产品销售的全业务、全流程,开发了涵盖电子书、网络课程、数据库和移动阅读App等产品。数字产品包括,已上线的“中国建筑出版在线”、工具书在线、“建筑文库”移动阅读、数字期刊平台等,另外还完成了英文图书元数据的推送等工作。这些多形态的数字产品,是建立在本社海量的资源库的数据基石之上的。利用资源库现有的资源,可以对图书内容实现结构化、碎片化、富媒体化;通过元数据标引、数据挖掘、数据关联,可以实现个性化、定制化服务,以便适应不同终端用户的个性需求。所以,资源库的数据建设、维护和管理是数字出版的重中之重,否则,前端多形态数字产品就将成为无源之水、无本之木。资源库工作庞杂繁复,如何让资源库的数据建设完善、规范有序,是数字出版中心相关人员必须不断思考的问题。
  资源库的数据建设:要有独有的加工标准
  资源库的数据建设从前期规划到具体实施是一个复杂的系统工程,也是一个从摸索中不断走向完善的过程。在这个过程中,我们致力于数据建设逐步趋向规范化和标准化。
  资源库数据形式按内容可分为原始数据和基于原始数据的再加工数据;数据处理按加工手段可分为数据采集、审核、分类加工、发布等。
  原始数据主要分为,从ERP和在线编纂系统采集到的图书信息,排版厂提交给出版社的排版文件和链接图,在线编撰的过程文件及最终文件等。
  再加工数据包括:可带链接的、用于在线发布的PDF文件;结构化的WORD文档;EPUB文件;CEB文件等。
  资源库的数据建设,按流程顺序,可分为图书详情信息采集、排版文件、图片、PDF、EPUB的采集(该采集是用定制的采集工具在内网批量上传)、标引、加工、审核、发布等。这些流程经过两年多的运行和经验积累,已形成建工社自身特色的加工标准:
  ⑴采集信息的唯一性。定期从在线平台或ERP系统读取已正式出版发行的纸质图书、电子图书。该阶段主要是读取图书详情信息,诸如:社书号,丛书名,书名,装帧,开本,定价,ISBN,图书销售分类,中图分类号等。读取的全部信息在库中留存,主要信息用于外网发布。采集时需要注意的是,出版资源库要坚持“一书一号”原则,即同一本书所有信息都能最直接地从一个入口找到相关的信息,同一个社书号,无论版次只能有一个建档。本书所有信息操作都是基于这个唯一的建档号。不仅如此,还要做到系列丛书能够有效关联,甚至后台资源之间、前台的不同站点之间也要能有效关联。
  ⑵采集信息的准确性。从ERP采集到的信息因各种原因,会存在信息不完整或有错漏的情况,需要人工标引。
  要素标引完毕,还有“精编”项目:内容提要和目录内容。该内容可从ERP或排版文件读取,如不能读取则需人工录入。为保证采集到的图书信息准确,标引之后多人审核是必要的,审核无误后才可发布到外网。
  ⑶排版文件、图片、PDF、EPUB的采集。由排版厂提交到本社的排版文件和图片一般滞后于信息发布1-3个月。数字出版部门收到排版文件后,要对文件做两项必要的检查。一是要保证内容的正确性。二是检查排版文件的完整性。
  内容检查无误后,可以用采集工具来按类型分门别类地批量采集。在采集工具中,不同数据类型如同一个个“盒子”,启动批量采集时可自动归入到相应的“盒子”中去。同一书号、不同版次的文件,不可采用批量方式,标明版次后需人工逐个插入到相应的资源文件夹中。可供采集的数据有:封面及正文排版文件、PDF、EPUB、CEB、插图、经典资源包等。
  PDF文件在采集之前,要严格区分高精度(用于内网存档或内部职工因需调用)、低精度(用于外网售卖的电子书)、正文样张(用于外网读者的10%免费翻阅),批量上传。EPUB文件直接批量上传即可。
  ⑷数据加工。分基本加工和深度加工两种。
  基本加工:是将排版文件加工成CEB,PDF,EPUB等格式。必须注意的是,PDF文件用于外网发布时,使用低精度,同时还要批量拆分10%的PDF文件用于PC端客户的免费浏览;用于资源库留存的PDF文件则应生成高精度。既有图书中,如果没有排版文件的电子版,可将纸质图书经过扫描生成PDF文件,整合成一个文档,通过OCR识别,扫描的PDF中的文字内容可以识别,可视为“字符”形式,以便内容检索和查找。
  深度加工:主要是指将PDF文件、EPUB文件、由自动引擎版面回写的WORD文档,在已有的结构化基础上,按需进行深度碎片化、富媒体化。以建工社为例,经过深度加工成功推出了数字期刊平台,终端用户可通过检索期刊的栏目、标题、作者、文献,订制自己需要购买的文章。
  ⑸审核和发布。纸质图书的“编、校、印、发”有其完备的运作方式和标准,数字出版则不然。虽然数字出版早已不是什么新生事物,但在“审、校、发”方面,业界并没有形成统一的标准。出版社在转型初期都会面临审校过程操作性不强、严谨性欠缺、重视度不够等情况。
  经过多年实践和摸索,建工社的数字出版物在正式发布之前的审校,已初步形成保障质量的运作方式和标准:一是不同流程由不同人员定岗负责。二是坚持全面检查、兼顾重点的制度。三是在无纸化的条件下,人机界面交互的同时与纸质样书核对。
  审核无误的信息,定期由专人发布。资源库的数据是动态的,每天都会有变化。需要发布的信息,坚持定期、分批发布的原则。不是零散处理而是以时间段来加以区分,易于批量处理,也方便前后台的数据比对和查询。另外,需要提前发布的纸质图书或电子书,也有应急响应措施。
  资源库数据的维护和更新:“看不见”的后续工作尤为重要
  如果说数据建设是资源库的基础性的工作,那么资源库的数据维护和更新则是“看不见”的后续性工作。无论是内部人员在后台的数据调用还是终端用户在前台的数据访问,都要保证数据的时效性、准确性。因此,资源库数据的日常维护和更新就显得尤为重要。   ⑴定期采集、发布新书。新书是指已出版发行的新版、再版、重印的纸质图书。每周由发行部门提供新书列表,数字出版部门根据列表,利用ERP与资源平台的接口读取相应字段,采集图书详情;扫描纸书封面并上传封面图片,标引,审核,发布。发布新书之前,由专人查看是否有前版,如有前版则从后台撤下,发布后“图书在线”只保留最新版。
  ⑵不定期整理需要深度加工的现有资源。资源库中数据庞大,为了避免过度加工、盲目加工,造成人力和物力的浪费,须由专门人员将资源库中需要再加工的、有市场前景的图书资源,根据其性质、特点,分别导出需要结构化、碎片化的图书列表,交由有关人员作相应的拆分,并将内容对象导入到相应的资源库,满足新的数字产品和商业模式的需要,提高内容的利用率。数字出版资源库里的出版资源可能会有多种类型,针对不同性质的图书资源采用不同的反解方式,并建立不同类型的资源库,如标准规范库、按篇章节拆分的期刊库、按条目拆分的汇编及专业词典库、职业资格考试的视频库、供终端用户有偿下载的图片库等。
  ⑶内外网已发布资源数量的定期核对。建工社的数字出版资源管理系统与发布管理平台处于同一个库中,出版资源管理平台的数据变动直接反映到发布平台,再由发布后台正式发布到前台的“图书在线”。在“中国建筑出版在线”上线初期,因为种种原因发布新书时偶有前后台数量不能完全对应的情况,需要按图书销售分类人工核对。为保证这些数据完全正确,分类核对做法沿用至今。主要核对内容:各分类下已发布新书数量;电子书总数;POD数量。三个平台的图书分类方式完全对应。
  ⑷“丢书”情况的查缺补漏。丢书情况分两种:一种是有库存的、从ERP里无法读取的,另一种情况是营销中心因种种原因没有提供样书的。定期核查营销数据中有库存的图书,只要库存非零,在“图书在线”前台必有在线销售;纸质书库存为零则自动纳入POD。每月由营销中心提供销售数据,正式出版发行的新书如因某种原因在前台没有在线销售信息,两个月内必须由人工补录。
  ⑸资源数据的导出和调用。资源库内的数据不仅是用来加工各种数字产品的,更重要的一个功能是本社图书资源的“仓储”。库内可调用的文件类型很多,导出时根据实际需要可按图书状态、入库时间、销售类型下载。编辑出版部门因图书的再版或重印需要调用原始文件时,可在资源库平台说明用途并在线申请,由部门领导在线核准、数字出版中心的相关人员授权后方可下载。授权时指定下载人员、可下载的内容、下载的时间限制等。严格“申请、审批、核发、授权、下载”程序,以策库内资源的信息安全。
  ⑹未雨绸缪,着眼于将来未知形态数字产品的资源建设。为适应市场变化和需要,数字出版资源库的建设都是为后续数字运营平台和自适应的动态出版系统服务的。为了保证将来的可扩展性,必须要求元数据内容的自定义和可扩展,加工处理的方式,也应向着智能化、自动最大化、标准化的方向发展。
  总之,无论是资源库的数据建设还是数据维护更新,资源库相关人员都是面向社内外的用户服务;无论后端数字产品将来的形态如何变化,做好服务都是资源库团队的本职。以“一个团队、一个标准”的不变,应对数据服务内容的不断变化,是数字出版资源库业者孜孜以求的目标。
  (作者单位系中国建筑工业出版社)
其他文献
本刊讯 随着抗战胜利70周年纪念日进入倒计时,相关主题读物逐渐成为今年暑期阅读的热词之一。浙少社刚刚发布的一份暑期推荐书单中,《不容忘却的抗战历史》《流亡的天使》《爸爸的托卡列夫手枪》等新近出版的抗战主题读物,为孩子们吹响了暑期主题阅读的集结号。  《不容忘却的抗战历史》是一部近20万字的纪实文学作品,重现了一幕幕血迹斑斑的历史,震撼人的心灵,给人以血的警示,作品在陈述事实的过程中,也以血的历史激
期刊
科普图书的出版具有重要意义,其在提高公民科学素养、培养公民科学兴趣方面发挥着重要作用。如何打造优秀的科普读物?本文将以“时间科普知识必读丛书”为例,带读者一探究竟。  热词:优秀科普图书 调研 读者 作家 编辑  科普图书是向公民普及科学技术知识、倡导科学方法、传播科学思想的通俗读物,在提高公民科学素养、培养公民科学兴趣方面历来发挥着重要作用,出版高质量的优秀科普图书是出版工作者们义不容辞的责任,
期刊
《思思阿姨幼教音乐系列图书》(5册)是一套16开横开本的彩色幼儿音乐早教书,笔者作为责任编辑,记录了从一个兴奋点到出版成册这其中的点点滴滴。其间的千头万绪、状况百出……如果标点符号用法允许,我愿在此打上10个、100个省略号。但她最终以完美的姿态展现在我面前时,我深深感到一切都抵不过这瞬间涌上心头的无以言表的幸福感……我想这就是收获。  抓住脑袋中闪光的小泡泡  策划本书的灵感来自于我的女儿,不到
期刊
本刊讯 6月6日,由二十一世纪出版社集团和新教育新父母研究所联合举办的“新孩子乡村阅读公益行”活动的第一阶段,画下完满句号。  据介绍,“新孩子乡村阅读公益行”缘起于二十一世纪出版社推出的一套特殊的儿童文学作品《新教育的一年级》。这部作品的作者童喜喜,是一位非常“传奇”的人物,她不仅是中国作家协会成员、“新教育的一年级”系列等多部儿童小说的作者,还是热心公益,多次为山区儿童捐款捐书的“萤火虫姐姐”
期刊
本刊讯 国内首部校园文学与写作教育结合的互动型成长小说《章鱼国小时代》系列丛书,近日由二十一世纪出版社集团推出。本部作品将校园小说、情智成长和写作指导三个迥异的类型融合,采用幽默独具的情节创设,轻松搞笑的漫画化语言,细节丰富的插画,清新明快的版式,层次分明的板块构成,使作品无论是主题还是语境,都准确地把握住了当下孩子的特点,把小学生校园生活刻画得异常生动。  作者章鱼,同时也是一位教师,从事作文教
期刊
本刊讯 5月28日,中国公安大学教授王大伟教授来到北京市新中街幼儿园参加了王大伟儿童平安操首演暨《王大伟平安童话童谣系列》新书捐赠仪式。本次活动由湖北科学技术出版社主办,北京市东城区新中街幼儿园、东棉花胡同幼儿园承办。在活动中,王教授为大家讲解了儿童安全的现状,普及了最新最实用的儿童安全知识,亲切地与在场的小朋友们进行了安全知识互动,并且还向幼儿园赠送了50套王教授最新出版的作品《王大伟平安童话童
期刊
新媒体时代的到来,使得我国传统期刊包括财会期刊正面临着严峻的考验。在新形势下,传统期刊如何实现自我改革和发展,需进行深入的思考探索。本文以《国际商务财会》的改革和创新实践为例,与读者交流探讨。  热词:财会期刊 新媒体时代 发展  随着新媒体的异军突起,以新闻信息为主要内容,以互联网络和通讯网络为传播手段,信息生产、传播与接收已聚集成一个完整的链条,从而打造出了一个个全新的传播平台。人们的阅读习惯
期刊
本刊讯 5月28日,北京云章科技有限公司在裕龙国际酒店举办了“云章复合出版ERP管理系统v5.0新版发布会”,并邀请了30家出版单位信息化建设的典型客户参加本次发布会,通过新系统的发布,云章与客户一同分享了云章科技十余年专注于出版行业信息化的发展与成果,为出版企业数字化转型升级提供全新的复合出版ERP系统和更多的信息化软件产品与技术支持。发布会上云章科技副总经理韩冬妮向参会客户表达谢意,并与客户分
期刊
做书这件事,听起来古老、悠远、有情调。好像只要有作者的智慧与油墨的香,做书人就可以优雅地工作下去,以自己的魔术将无形的精神定型,成为一本一本可以捧起的书。而书在一千五百多年前也已成为现在这稳重成熟的样子。艾柯在《别想摆脱书》里发话:书就像勺子,一发明便完美了。这个行业好像可以一直这样美下去。  然而这种景象只是水月镜花。一旦入行,一切优雅的感觉将迅即消失。在国内市场这一边,国有出版社有580多家,
期刊
热词:原版引进教材 本土化  我国大学英语教材的发展经历了从高校老师自主编写,到原版引进国外教材,再到将原版教材按照中国学生的实际情况以及中国国情进行“本土化”改造的发展过程。实践证明,对原版引进教材进行本土化改造,是确保教材高品质,同时适应国内教学要求的最佳途径。本文以《博采英语》(第二版)的出版为例,分析原版引进教材本土化的工作重点。  一、提升教学质量,引进出版先进原版教材  2001年教育
期刊