从纸质出版到数据库建设:出版业转型路径探究

来源 :出版科学 | 被引量 : 0次 | 上传用户:thskaoyan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘 要] 首先从历史角度考察纸质出版,认为就具体形态而言是以纸为媒介“镌著于版”“印行于世”的行为,其本质是“信息生产与传播”行为。其次指出互联网时代,纸质出版的价值犹在,但基于数据的生产与传播为大势所趋:数据库是面向特定主题,集成的、相对稳定的、具有统一格式的、能反映历史变化的数据集合,数据库建设是将“孤立、静态和碎片化”的文本数据转化为“关联、动态和整体性”的结构化数据工程。最后,以自然灾害类突发事件中的旱灾数据库建设为例,探讨数据库建设的意义,介绍数据库建设的基本步骤,以期为出版业的转型提供新思路。
  [关键词] 纸质出版 数据库建设 大数据 出版业转型
  [中图分类号] G237 [文献标识码] A [文章编号] 1009-5853 (2016) 06-0090-04
  [Abstract] Paper-based publication uses paper as a medium to “engrave in the wood block for printing” and to “publish to the world”. Its essence lies in the process of information production and communication. In the era of the Internet, the value of paper-based publishing remains apparent, yet the production and communication based on data has become a trend. A database is a data set established for a specific topic, and it integrates relatively stable data in a unified format and reflects certain historical changes. Database development is the attempt to translate the “isolated, static and fragmented” text-data into “related, dynamic and integral” structured data. Using “Natural Disasters: Drought” database as an example, this paper discusses the significance of database establishing, and introduces the basic steps of database setup. In doing so, it provides fresh ideas for the possible transformation approaches for the publishing industry.
  [Key words] Paper-based publication Database development Big data Transformation of publishing industry
  传统的纸质出版,主要是将文字或图表印刷在纸介质上并向公众发行,其生产方式是“物化”复制的过程,其发行方式是实体印刷品基于物理空间的位移过程。随着互联网与大数据时代的到来,纸质出版的价值犹在,但基于数据的生产与传播已是大势所趋。对出版业来说,当下不仅要提升传统的编辑能力和印刷能力,还应大力提升对大数据的处理能力。出版企业大都拥有一笔宝贵的财富,即多年经编辑加工而成的图书或音像制品。它们中的大多数作为非结构化、半结构化的数据“沉睡”在那里,如果仍以“物化”复制的方式重新刊印,未必能获取足够的市场价值;但若将这些数据基于特定主题建设数据库,则可能使其“苏醒”且价值倍增。本文以“自然灾害·旱灾(2001—2010年)数据库”建设为例,介绍如何对非结构化、半结构化数据进行结构化处理,以期为传统出版业的转型提供新思路。
  1 “出版”的本质是“信息的生产与传播”
  随着以互联网为代表的新媒体技术的广泛普及,传统出版业面临的困境及转型策略一直是学界与业界关注的焦点。探究出路往往需溯本求源,反思何为“出版”?
  “出版”一词起源何时目前尚无定论。朱光暄认为“出版”一词最早出现于光绪二十八年(公元1902)梁启超的《敬告我同业诸君》一文中[1];林穗芳认为“出版”一词19世纪末借自日语[2];吉少甫认为“出版”一词最早是在梁启超1899年8月发表的《自由书》一文中使用的[3];王益认为1879年黄遵宪与日本学者龟谷省轩的“笔谈”中最先使用此词[4];王振铎认为“出版”一词最早出现在1833年8月1日创办于广州的《东西洋考每月统记传》的编辑序言中[5],等等。尽管“出版”一词在汉语中的历史并不悠久,但汉语中表示出版行为的词汇却早已有之,如唐宋年间即有“上梓”“梓行”“刊行”“开板”“板印”之说[6]。《辞源》中表示出版行为的用语有“刊行”“板本”“印板”“镌印”“雕版”“刊刻”等[7]。分析上述文献,可以发现“镌著于版”“印行问世”[8]大体表征“出版”之义。
  此外,一些法律条文对何为“出版”也进行了界定。日本明治20年(1887年)的《出版条例》规定:“凡以机械、化学或任何其他方法印刷之文书图画予以发售或散布者,均为出版”[9]。《世界版权公约》将“出版”界定为“作品以有形形式复制,并把复制件向公众发行,使作品能供阅读或观赏”[10]。我国北洋政府制定的《出版法》规定:“用机械或印版及其他化学材料印刷之文书图画出售或散布者,均为出版”[11]。我国现行《出版管理条例》规定:“本条例所称出版活动,包括出版物的出版、印刷或者复制、进口、发行”[12]等。上述法规对“出版”的界定虽表述不一,但“印刷”和“发行”是其共有的特征,二者分别对应的是出版过程的生产环节与流通环节,缺其一不能称之为出版。   综上,我们认为将文字与图表印刷在纸媒介上并加以发行只是纸质出版的具体形态。究其本质,出版是“信息的生产与传播”行为。在不同的历史时期、不同的技术条件下,出版的具体形态各异,但生产信息、传播信息的本质不变。
  互联网技术对传统的信息生产与信息传播方式所带来的变化是颠覆性的。现今时代对出版企业而言,提升对数据信息的生产能力与处理能力是其转型的重要趋势之一。其中,需要厘清的一个重要问题是出版业的“数字化”转型并不等于“数据化”转型。“数字化”是将原来基于印刷等生产行为生成的符号转换成用“0”和“1”表示的二进制码[13];或者说,是将模拟数据变成计算机可读的数据,从而在传播介质上摆脱了对纸、光盘等有形之物的依赖。而“数据化”是“一种把现象转变为可制表分析的量化形式的过程”[14]。通俗地讲,就是“让数据发声”的过程。二者有本质的区别。因此,对于出版业转型来说,只是将原有出版资源转变为计算机可读的数据(这些数据大多为非结构化、半结构化的)远远不够,还必须在此基础上对这些海量数据进行结构化处理与深度挖掘。这也正是建设数据库的意义和价值所在。
  2 数据库建设的意义
  数据库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合[15]。它可以形象地理解为一种格式一致的多元数据存储中心。其数据可以来自出版系统、也可以来自媒体报道和政府部门通报等;可以按统一定义的格式被提取出来,再通过清洗、转换、集成,最后百川归海,加载进入数据库[16]。对出版企业而言,加强数据库的建设主要有以下几个方面的意义。
  一是重新定义出版行业的核心竞争力。对于传统出版行业而言,其核心竞争力可能是编辑水平、印制能力和发行能力,但未来出版企业的核心竞争力之一主要体现在对大数据的利用水平上。对大数据的利用需要有两个基本条件:一是拥有庞大的数据规模;二是掌握丰富的数据处理资源(包括专业人才、资金、平台、数据搜集高权限等)。两者缺一不可。一般的自媒体和非专业媒体机构很难同时具备这两个条件。因此在大数据时代传统出版企业依然具备巨大的发展潜能,也就是可以通过大数据重构自身作为专业信息生产与传播机构的核心竞争力。
  二是更新出版行业的资源整合方式。过去出版行业主要是按书名或书籍涉及的领域进行资源整合。这种整合方式是表层的,主要作用是易于检索,无法对资源进行深层次利用。数据库建设则是按照不同主题制定统一的数据指标,对所有相关的非结构化、半结构化的数据进行结构化处理。以 “突发事件数据库·自然灾害·旱灾”(以下简称“旱灾数据库”)为例,就是以“干旱”为主题的数据库,需要采集相应时空条件下所有关于干旱的数据,并制定统一的数据处理标准。例如,对干旱的发生时间、持续时间、发生地点、波及地域、对人员生命财产造成的损失等数据进行结构化处理,并将这些数据存储到数据库中,以实现数据资源的持续利用,在数据层面实现信息资源的“完全燃烧”。
  三是创新出版行业的服务方式。出版企业搜集数年来关于某类主题的数据建立数据库,通过大数据挖掘可以清楚地了解到某类事件发生的地域分布、时间分布、演化过程等总体趋势,可以与其他数据“叠加”进行相关性分析等,并以此为基础为用户提供大数据服务。用户通过对旱灾数据进行挖掘分析,得出来的结论不仅可以为相关部门的灾害应对提供决策依据,而且可以为广大农民、涉农企业的生产经营提供数据支持。
  3 数据库建设的步骤
  数据库的建设主要包括数据采集、数据清洗、数据结构化处理、数据存储、数据挖据、可视化呈现等步骤。下面以“旱灾数据库(2001—2010年)”的建设为例作具体介绍。
  数据采集。设计网络爬虫程序,按照设定的关键词,自动抓取互联网上相关主题的所有数据信息,并按照一定的规则储存。就“旱灾数据库”而言,主要是通过设定关键词的方式,对目标站点的数据信息自动进行抓取,并将采集后的数据按照相应的规则存储。
  数据清洗。对网络爬虫程序采集到的数据“去杂”的过程,也就是将与数据采集规则不符的数据尽可能去除。对旱灾来说,凡不属于对灾害本体进行描述的数据、超出事先规定区域之外的数据等都应去除。
  数据处理。这是对采集的非结构化或半结构化数据进行结构化处理的过程。此步骤为数据库建设的关键步骤,直接影响数据挖掘的精确性和数据库价值的大小。具体到“旱灾数据库”,主要由“本体要素表”“影响损失表”“应对措施表”“舆情应对表”4个部分构成,且各部分都有自己特定的填写格式。对干旱灾害的数据处理,即将所有的关于干旱灾害的时间、地点、等级、影响、应急措施、舆情应对等根据各表格的填写格式,按统一的数据指标分别填写到对应的表格中。
  数据存储。将结构化数据加载入库的过程。对干旱灾害而言,即统一集成各部分的结构化数据表格,搭建“旱灾数据库”的过程。
  数据挖掘。曾一度被称为“基于数据库的知识发现”(Knowledge discovery in database),是指“有组织有目的地收集数据,通过分析数据使之成为信息,从而在大量数据中寻找潜在规律以形成规则或知识的技术”[17]。对于出版行业而言,大数据挖掘的最主要应用就是对于不同主题数据库的联机分析和相关关系分析[18]。具体到“旱灾数据库”的数据挖掘,一方面要对干旱灾害的关键要素进行处理、呈现;另一方面要对灾害发生时伴随发生的其他现象进行相关性分析。此举不仅可以使用户从微观上把握某一具体灾害,而且可以从宏观上对干旱灾害的时空分布规律进行准确把握。香港科技大学龚启圣教授曾经收集过去2000余年中原省份的气候数据,包括每年降雨量、旱灾、水灾,以及北方游牧民族攻打中原的时间和次数等,并根据这些数据进行深入挖掘,结果发现:任何十年里,多一年旱灾会使游牧民族在那十年里攻打中原的概率增加26%[19]。
  本课题组采集了2001—2010年10年间我国旱灾的全部数据,通过大数据分析,我们发现干旱灾害发生后往往引发相应的自然类衍生灾害、公共卫生类衍生灾害和社会安全类衍生灾害。自然类衍生灾害主要包括水库干涸、河流断流、森林火灾、虫灾、沙尘暴、草场退化、湿地生态破坏、咸潮和蓝藻等。公共卫生类衍生灾害包括肠道传染病、呼吸道疾病、皮肤病等,其中干旱灾害与肠道传染病集中爆发的相关性不易为人们的直观经验所发觉。大数据挖掘显示出的相关性,其背后往往存在因果性——干旱灾害往往会造成河流断流和水库干涸,使饮用水源过于集中,一旦水源受污染,便极易造成肠道传染病的爆发。此外旱灾还会引发社会安全类衍生灾害,如农村村民因抢水械斗、群体上访和围攻水管单位等。   可视化呈现。可视化呈现是指“以图形、图像、地图、动画等更为生动、易于理解的方式来展现数据的大小,诠释数据之间的关系和发展的趋势,以期更好地理解使用数据分析的结果”[20]。就“旱灾数据库”而言,其可视化呈现至少有3种途径可资参考:一是时间线,用以展现干旱灾害在时间维度上的演变;二是数据地图,用以展现干旱灾情基于地理位置的分布;三是交互性图表,用以展现干旱灾害本体及其影响之间的关联性。通过数据的可视化呈现,能够使受众在脑海中迅速形成关于灾害及其相关性的直观印象,提高人们对干旱灾害的认识能力和预测预警能力,将干旱灾害带来的损失降到最低程度。
  对传统出版行业来说,从纸质印刷到数据库建设,就信息生产方式而言是一次颠覆性的变革,但这种“颠覆性”会产生巨大的价值。不同专业背景的出版社可根据自身的特点,建设不同主题的数据库。例如,卫生行业的出版社可与医疗行业联合建设若干涉及人体健康的数据库,教育行业的出版社可与各类教育机构联合建设若干关于教育的数据库,如此等等,只要深入挖掘,可谓资源无限、潜力无穷。正如维克托·迈尔-舍恩伯格教授所说,“数据就像一个神奇的钻石矿……它的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,绝大部分都隐藏在表面之下。”[21]
  注 释
  [1]朱光暄, 薛钟英, 王益. “出版”探源[J]. 出版发行研究, 1988(5): 51-53
  [2][6][9] 林惠芳. 明确“出版”概念 加强出版学研究[J]. 出版发行研究, 1990(6): 13-20
  [3]吉少甫. “出版”考(续)[J]. 出版发行研究, 1991(5): 62-62
  [4]王益. “出版”再探源[J].出版发行研究,1999(6): 8-9
  [5][8]王振铎.“出版”史论[J].出版发行研究,2006(10): 26-29
  [7][10][11]胡国祥.“出版”概念考辨[J]. 武汉大学学报(哲学社会科学版),2008(3): 437-442
  [12]徐力.“出版”概念及其在数字化网络环境下的再认识[J]. 出版发行研究,2012(7): 55-57
  [13][14][21]维克托·迈尔一舍恩伯格,等. 大数据时代[M]. 杭州:浙江人民出版社,2013 : 104-127
  [15][16][20]涂子沛. 大数据:正在到来的数据革命[M].桂林:广西师范大学出版社,2012:86-99
  [17]谭磊.New Internet:大数据挖掘[M].北京:电子工业出版社,2013 : 23
  [18]张振宇,周莉.“大数据出版”的理念、方法及发展路径[J].出版发行研究, 2015(1): 14-17
  [19]陈志武.量化历史研究告诉我们什么? [EB/OL].[2013-09-17]. http://www.21ccom.net/articles/sdbb/2013/0914/91965.html
  (收稿日期:2016-09-24)
其他文献
[摘 要] 以Web of Science收录物理学科数据为样本,分别收集1995年、2000年、2005年、2010年、2015年该学科的出版数据,选取各年度被引前10%的论文作为研究对象,分析期间学术期刊刊载容量(能力)的变化、编辑出版发行方式的变化并统计计算上述数据的引用时滞。结果表明:引用时滞逐年下降,尤以2015年显著,仅4.65%的文献在发表当年未被引用。而1995—2015年间该学科
期刊
[摘 要] 网络社区问答(CQA)自2002年出现起,一直是用户获取、生产信息的重要途径。随着互联网的发展,引入人际关系帮助信息分享,逐步完成从内容平台到用户社区的演变。本文提出基于搜索引擎的网络问答平台、基于用户关系的网络问答社区和基于“意见领袖”的网络问答服务三种网络社区问答形式,并阐释了网络社区问答的服务模式,最后总结网络社区问答当下的发展困境,对未来发展趋势进行展望。  [关键词] 网络社
期刊
[摘 要] “互联网+出版”是出版行业发展大势,对传统出版机构及互联网出版平台均具根本性影响。本文以“盛大文学”为例,研究互联网线上出版平台通过线上IP形成“IP+”,以此实现“互联网+出版”的路径。  [关键词] 互联网+出版 IP+ 盛大文学  [中图分类号] G237 [文献标识码] A [文章编号] 1009-5853 (2016) 06-0036-04  [Abstract] The m
期刊
[摘 要] 分析知名女性消费杂志《Little Things恋物志》的杂志传播策略,以说明基于互联网时代受众细分的社群生态,小型杂志文本叙事及服务方式的转变:《恋物志》编辑团队首先以商品化的审美之“物”为推介重心,为读者提供与文艺生活相关的知识谱系及消费导引;继而尝试通过从在线到线下的连接迁移,提升专属社群凝聚力和黏性,推动杂志从平面媒体向文艺生活共享社群转变。编辑团队紧紧围绕文艺生活之“物”的文
期刊
[摘 要] 作为典型的资讯类社会化阅读App,移动新闻客户端是目前大学生阅读新闻的主要渠道之一。本研究以权衡需求理论为理论框架,分析影响大学生采纳和使用社会化阅读App的需求因素。调查结果表明,新闻资讯权衡需求、有用信息权衡需求、消遣娱乐权衡需求能够有效预测和解释大学生是否会采纳移动新闻客户端。除了这三个因素之外,表达意见权衡需求同样正向显著影响大学生移动新闻客户端的使用行为。相反,线上社交权衡需
期刊
[摘 要] 运用接受美学视角,对近20年(1995—2014)台湾文献信息网所收录之98篇“诚品”学位论文,分别从效果史、阐释史,以及影响史三个方面,探讨台湾学界对诚品的相关研究。进而指出“诚品”形象构建的学术轨迹。  [关键词] 接受理论 诚品书店 效果史 阐述史 影响史  [中图分类号] G239 [文献标识码] A [文章编号] 1009-5853 (2016) 06-0053-04  [A
期刊
[摘 要] 2015年是“互联网+”对中国文化产业产生影响的重要年份,作为“全民阅读”的风向标,公共图书馆借阅排行榜反映了“互联网+”语境下现代通讯技术所影响的公共观念以及新交往方式对“全民阅读”的影响。调查显示,人文阅读类的读物占较大比重,功能性阅读与审美性阅读各占半壁江山,“市民阅读”开始勃兴,“全民阅读”在“互联网+”语境下绽放出新的光彩。  [关键词] 全民阅读 市民阅读 互联网+ 借阅排
期刊
[摘 要] 《著作权法修订草案送审稿》删除《著作权法》第34条编辑修改权条款的做法有欠妥当。建议保留原有条款,确立编辑修改权。因为确立编辑修改权是权利义务对等的法理要求,是编辑工作正常进行的必然要求,同时也与编辑为出版物付出的劳动相匹配。另外,从权利边界的视角考察,编辑修改权的确立,能够从权利相对面的维度,厘清保护作品完整权的含义和边界。  [关键词] 编辑修改权 著作权 著作权法 保护作品完整权
期刊
[摘 要] 运用面板向量自回归模型分析后发现:东部地区图书出版对经济增长带来了“先增强后减弱”的正向冲击效应,中部地区的冲击效应既不明显也不稳定,西部地区则呈现负向冲击效应。同时,东部地区出版产业的延伸和知识的外溢使得全国的图书出版带来经济的有效增长。但是,这一效应主要是通过“产业渠道”而非“传播渠道”传导的,这就使得图书出版数量上的扩张只是带动了出版产业的发展,而未能带来出版知识快速且有效的转化
期刊
[摘 要] 抗日战争时期,桂林“文化城”成为大后方的出版中心和国统区抗战舆论的前哨阵地。在颠沛流离的非常态社会环境下,文化的市场生存与社会责任的坚守显得更艰难可贵。《大公报》(桂林版)的诞生是抗战时局推动下的产物,承担着抗战文化信息传播的重要责任。对于抗战时期出版史的研究,因史料的散佚,而让诸多学者面临“无米之炊”。抗战时期的出版广告则为我们打开一个研究战时出版活动的新视窗。本文试图从《大公报》(
期刊