文本到底是什么?

来源 :出版科学 | 被引量 : 0次 | 上传用户:tim6888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  编者按 数字出版的产生与科学交流关系十分密切。最早的数字出版实践可以追溯到20世纪50年代的计算机联机目录和文摘实验。随后的1960年代,通用标记语言SGML开始出现,1990年代HTML和XML语言逐渐兴起,网页和电子文档逐渐成为主流的正式科学交流文本形式。
  在出版技术发展史上,标记语言的出现具有革命性意义,它们推动了半结构化电子文档的蓬勃发展,由此催生的各种电子文本表示模型在编辑软件(如Microsoft Word)、电子书标准(如DocBook)、出版物标签集(如JATS)上得到广泛应用,并深刻改变了数字出版物特别是学术出版物的内容与形式。
  相对于西方连续的数字出版研究进程而言,我国的数字出版研究起步较晚,基本上没有经历从序列式电子文本到半结构化电子文本这个转换过程,所以相关的研究稀少。然而,这一转变过程的理论价值和学术地位却不能忽视。美国伊利诺伊大学香槟分校图书情报研究生院的艾兰·瑞尼尔(Allen H.Renear )教授是数字出版领域的国际知名学者,曾任国际数字出版论坛(IDPF)首任主席。正是该论坛提出了目前业界最流行的电子书格式标准ePub。瑞尼尔教授在文本表示模型和电子文本语义结构研究中作出了突出贡献,其研究成果对创新学术文本模型以及科学交流系统的数据化和语义化再造具有深远影响。为了介绍和传播瑞尼尔教授及其合作者的科研成果,进一步夯实我国数字出版研究的理论基础,本刊从本期开始连载王晓光教授带领的团队翻译的瑞尼尔教授及其合作者在1987、1990、2002年发表的三篇经典文献。这三篇文章分别与文本表示模型、XML标记的语义以及标记对学术文本的影响有关,值得国内同行学习与借鉴。本期刊发第一篇。
  [摘 要] 文本在计算机上的表示方式影响着文本创作者与其他用户使用文本的方式。现有的电子文档模型还有很多不足和局限。笔者认为文本最好的表示模型是有序的分层内容对象模型(OHCO),这种模型揭示了文本到底是什么这一根本问题。OHCO模型符合SGML等新兴标准,且有利于作者、出版商、研究者等不同用户。本文介绍了该层次模型以及未来如何将文档作为一种数据库、超文本、网络来加以利用和重用。
  [中图分类号] G237 [文献标识码] A [文章编号] 1009-5853 (2016) 03-0005-09
  What is Text, Really?
  Steven J. DeRose David G. Durand Elli Mylonas Allen H. Renear
  (praXis, Brandeis University, Harvard University, Brown University)
  Ttanslated by Wang Xiaoguang Ling Xiangyu Wang Junfang
  (School of Information Management, Wuhan University, Wuhan, 730072)
  [Abstract] The way in which text is represented on a computer affects the kinds of uses to which it can be put by its creator and by subsequent users. The electronic document model currently in use is impoverished and restrictive. The authors argue that text is best represented as an ordered hierarchy of content object (OHCO), because that is what text really is. This model conforms with emerging standards such as SGML and contains within it advantages for the writer, publisher, and researcher. The authors then describe how the hierarchical model can allow future use and reuse of the document as a database, hypertext, or network.
  尽管计算机领域早就有人预言过无障碍信息获取与交互的近乎魔术般的未来,经过多年的发展,阿兰·凯所谓的“驾驶喷气飞机在信息空间穿梭”的愿景仍未能实现。但是我们坚信计算机在服务普罗大众,特别是学术活动上有着巨大的潜力,其服务涉及研究、思考、写作以及记录和组织信息等多个领域。然而,当前的软件技术还做不到这一点。在本文中,我们将研究计算机文本模型如何约束研究人员的文本处理能力。我们认为借助一些更复杂的模型(能更好地反映文本和文档本质的模型),研究者可以得到一些梦寐以求的结果[1]。
  长期以来,当人们面对电脑或电子终端时,最大的感受就是打字输入越来越快、越来越方便,但大部分行为和操作与过去的碳带打印相差无几。这一情况说明,计算机的强大功效尚未被充分开发利用。比缺乏实质性改进更糟糕的是,有些传统机械的优点也被弄丢了,看看下面这些笔墨时代从未出现过的问题:
  ·因为使用了不同的文字处理程序,导致我们无法与同事共享文档(或“文件”);
  ·出版商因无法使用磁盘上的文件直接排版,而重新录入所有内容,结果出现新的错误;
  ·即使是校园挨得很近的不同打印机也会打印出不同的结果(有时可能完全打不出来);   ·多年在线工作积累的大量文本(论文、研究报告、书目列表等)不能有效地查找:可能我们知道某个参考文献在磁盘上的某个地方,但就是找不到它。
  我们认为大部分蹩脚的文本处理程序,以及印刷、可移植性还有信息检索方面的问题都有一个共同的源头。它既不是计算能力、内存或像素方面的欠缺,也不是程序设计不够巧妙或用户友好性不足。这是一个根本性问题,与计算机文本的表示方式有关。硬件与编程技巧的改进并不能从根本上克服文本表示上的缺陷。
  在各种信息交流形式中,组织结构清晰的文本历史最为悠久,也是诸多学者关注的焦点,所以我们选择文本作为本文的研究对象。我们认为文本的组织规则在应用于新旧不同的媒介时,必须进行更改。
  1 OHCO:文本究竟是什么?
  文档在计算机上的表现形式应当能反映文档的本质。所以第一个问题就是“什么是文档”?解决该问题的方法是首先要考虑要素的问题:改变文档的什么东西会让文档发生根本性变化,什么东西改变了还是原来那个文档?
  The trouble with “What You
  See Is What You Get” is that
  “What You See Is All You’ve
  Got.” — Brian Kerniqhan(?)
  The trouble with 《What
  You See Is What You Get》 is
  that 《What You See Is All
  You’ve Got》.
  — Brian Kerniqhan(?)
  毋庸置疑,上面两个文档片段是“相同的”。对于一般性目的来说——有意义的内容单元——上面的文字是一样的。但是,如果我们对版式进行深度的而非浅显的调整,二者就会不同。差别主要来自于形式,而非内容。
  我们把文本的本质部分称之为“内容对象”,它的类型很多样,例如段落、引用语、着重语和观点等。在打印和显示文档时,每种类型的内容对象都有自己的表现样式,但它们是表面的和短暂性的,而非本质性的——内容元素及其内容本身才是文档的根本。当给这些对象指定了特定的助记名称后,就可以说文档含有“描述性标记”[2]。
  大多数内容对象都包含在更大的内容对象之中,像小节、节和章的关系。在上面的例子中,段落包含了两段引用语,第二段引文中含有一个着重元素。一般来说,较小的内容对象不能跨越较大的内容对象的边界;因此一个段落不会在一章开始而到下一章才结束。有鉴于此,文档可以说是分层的,像一棵树或分类法。
  较小的内容对象存在于较大的内容对象中,比如一章中含有多个节,一节又含有多个段落、引用块和其他对象,这些对象按照一定顺序排列。这个顺序很关键,在任何文本结构模型中都必须存在[3]。
  结合这些基本要素,我们可以将文本描述为一个“内容对象的有序层次结构”(Ordered Hierarchy of Content Objects,OHCO)。这是本文以下章节讨论的文本的基本模型。在解释完为何其他简单模型不合适之后(尽管很多计算机工具正在使用这些模型作为基础),我们将具体说明文本作者和研究者从OHCO模型和软件系统的组合中可得到的好处。文档的内容对象有序层次结构表示是功能最强的描述性标记形式。
  该模型有如下特征:
  ·该模型反映了语言学上的篇章结构;文本是语言对象,所以这个框架是合理的;
  ·许多已出版的文本暗含该结构——例如目录形式表现出来的结构;
  ·版式手册也依据内容对象描述排版规则——例如期刊可能会对如何格式化 “引文块”进行详细说明,这意味着该类型的单元对作者和编辑来说,都是有意义的;
  ·可以通过指定图书的部分或查询元素的名称,直接从OHCO模型中抽出很多相关的元素;
  ·如图1展示的,使用该模型帮助儿童理解和创建文档是自然而然的。
  This example uses a slightly simplified version of the SGML standard for document preparation to show how one might enter a short letter and what it might look like printed out on paper.
  
  Hi Mom
   I’ve been having a good time here at camp, but the
  food is awful. Do you think you could send me something
  nourishing like chocolate chip cookies? Mr.Fenster fell into
  the lake last week. Boy, did he look funny!
By the way, I’ve spent a little more money than I
  thought I would at the camp store buying this neat new
  computer. Do you think you could send me some more? Thanks a
  lot.

  
  Scooter   

  What the letter looks like
  June 3,1987
  Hi Mom!
  I’ve been having a good time here at camp, but the food is awful. Do you think you could end me something nourishing like chocolate chip cookies? Mr.Fenster fell into the lake last week. Boy, did he look funny!
  By the way, I’ve spent a little more money than I thought I would at the camp store buying his neat new computer. Do you think you could send me some more? Thanks a lot.
  Sincerely,
  Scooter
  图1 一封友好的信件
  关于OHCO有效性的一个观点是该模型不仅适应排版和印刷技术的变化,也适应于翻译活动。尽管所有的文档词汇和大部分的句法结构都可能会在文档翻译成其他语言时发生改变,文档的OHCO结构却可能会原封不动。再拿前文的例子来看,其结构依旧如此:
  La problema de “Lo que vea,
  tenerá” es que “Lo que vea,
  es todo que tenerá.” — Brian Kernighan(?)
  2 其他模型
  尽管OHCO模型有许多优点,大多数计算机文本管理软件却使用了其他不太专业的模型。本节将介绍其他几种文本模型:作为位图的文本模型、作为字符流的文本模型、作为格式指令的文本模型、作为页面布局的文本模型、作为内容对象流(非层次结构)的文本模型。
  2.1 作为位图的文本
  想象一下,人们使用图像扫描仪扫描一个文档,可以得到该文档的页面图像。虽然读者可以阅读图像上的文字,就像阅读手写信件一样,但图像上并没有可以被计算机识别的用来指明哪些字符将在页面上展示的显著标记。因此,用户无法对文本中的词汇进行搜索、修改或者重新定义其格式。
  对于某些计算目的来说,位图是理想的,例如为了古文书学及相关领域的使用而存储和展示手稿复本。但是,没有人会尝试利用位图对文字进行处理。档案系统在存储一些纸质文档的复本时,常将每个页面的图像与一些文本或描述性文字相关联,由此实现文档的索引、搜索等。
  2.2 作为字符流的文本
  这种方法常用于通过计算机网络发送的文本文件。这种文本中仅有的结构性编码是通过空格和回车实现的[4]。由于文本字符都有清晰的编码,所以位图模型最明显的缺点就被克服了。由空格和标点符号提供的最基本的标记使得一些文本单元,如词汇和句子等都可以相当准确地定位。然而,文档的本质内容和文档结构远比字符重要,但这些依旧无法处理,所以位图模型面临的这些难题还是没有得到解决。除了可以搜索和修改词汇外,用户没法做其他任何事。例如,只有清晰地展示出文档结构后,才有可能让电脑将一个在线文档特定章节中所有引用诺思洛普·弗莱(Northrop Frye)的话做个列表。
  2.3 作为格式指令的文本
  相对于位图模型和字符流模型来说,目前常见的字处理文件在格式化页面制作上有了长足进步。字处理文件包含一系列字符和空格,还有少量排版处理指令。与以前的模型相比,该模型中的每个字母都有明确的表示。编辑程序可以定位单词、删除字符、进行全局替换以及其他常见的文字处理;此外还有附加功能可以使用,如自动拼写检查、词典、索引等。
  然而,由于缺少对作者感兴趣的对象的控制,当前的模型还无法定位文本中的诗歌引文或方程式。该模型没有明确指明文本的哪一部分是诗歌,哪一部分是方程式。虽然格式命令可能提供了一些线索,但它们并不可靠,原因如下:
  ·为了挑选出一种文本表现形式,必须要记住或重构一系列(可能很长)的格式化命令;
  ·在许多程序中,同样的文本表现样式可以通过不同的方式实现,但这些文本表现样式却没有唯一的识别特征;
  ·作者可能没有使用相同的方式对给定类型的内容对象进行格式化处理,由此导致搜索时会漏掉一些内容;
  ·作者可能以相同的方式对多种类型的对象进行了格式化,由此导致从外观上无法区分不同类型的对象。
  就像计算机可以将我们从排序问题中解脱出来一样,计算机同样也应解放那些想系统地改变某类内容对象格式的排版工人们,但是计算机不能,因为缺乏必要的描述性信息。信息的表现——格式化信息并不是问题的关键:它只与特定的设计风格、特定的文本处理程序以及特定的输出设备相关。
  2.4 作为页面布局的文本
  这种文档表示方法的最好代表也许是PostScript TM,其结构是分层的,与常见的论文处理方法类似[5],故被广泛使用。一本书可以分为若干页,一个页面又可以分为页眉、正文区(可能包含多栏、内嵌图片等)、可有可无的脚注和页脚。然而,即使是这种模式也不能满足作者和学者的文本操作需求。怎么才能找到方程、诗歌引文、诗句等类似内容?该问题与指令格式化模型面临的问题是一样的。页面布局模型有助于描述文本在页面上的位置,但不容易转换以满足其他用途。正如我们下面将要看到的,OHCO模型可以很容易地映射到其他模型。
  2.5 作为内容对象流(非层次结构)的文本
  该模型与OHCO模型的不同仅仅在于内容对象(由描述性标记标示)按贯序排列而非层级结构。任何单个文本片段只能是一个对象的部分,因此更高层次的内容对象,如章和节就无法直接展示。目前,许多文字处理软件都在使用该模型,例如,麦金塔电脑版的Word软件允许将特定类型的内容对象定义为“样式”(styles)。可惜的是,这些样式不能适用于段落以外的对象:无法定义那些具有层次关系的更小或更大的对象(如参考书目的子部分,还有像章节这样的高层单元)。微软的DOS系统也支持一定程度的字符样式,但还很不足,有待改进。   在某种程度上,分层标记是必须的,因为文本内容本身已经自然而然地描述了大多数的文本结构,所以流模型主要用于处理一些特定的结构,如参考文献、脚注、大纲视图。非层次性标记会导致确定的结构模糊不清。举个简单的例子,没有“列表”标示的一堆列表条目,没有“章节”标示的一堆章节标题。显示样式或格式化程序都被设置成隐形的,所以它们无法准确地操作更大的单元。例如下面展示的,尽管存在“listheader”标签,仍然不清楚后面的对象序列到底是一个接另一个形式的两个列表,还是只有一个列表,而把另一个列表当做第三个条目嵌入: Advantages to be sought Perspicuity Portability Other advantages Support for multiple authors Ease of re-using data
  在很大程度上,因为这些模棱两可的存在,导致非层级标记系统不够实用。由于格式化和其他文本操作不适用于结构环境,结果导致特定的“嵌入性列表项”“嵌有引用的段落”“连续性段落”等类似标签激增。在层级系统中,标签的数量可以大大压缩,但功能不会丢失。不支持层级结构的系统,其功能和界面设计上都非常有限;项目越大,这样的局限带来的麻烦就越多。
  3 SGML:编写OHCO的标准
  SGML(Standard Generalized Markup Language)是国际标准化组织(ISO)的“标准化通用标记语言”。它定义了一个强大的语言,借助简单的字符流文件来描述和编制任意复杂的层级结构文档[6]。它没有指定一套特定的内容对象类型或“标签”,而是提供了一种标签及其关系使用法则。对于有固定形式的文档,如字典和参考文献,SGML可以帮助其建立一致性结构。对于结构更加松散的文档,如文学文本,文档结构的精确描述可以用于文档分析。从这个意义上讲,SGML之于学者的帮助大于其对作者的帮助。
  SGML(Standard Generalized Markup Language)根据文档的OHCO结构来定义文档:它不直接指定如何格式化或处理文档,而是通过内容对象助记名来描述文档的层级结构。因此,它并不关心文件应该被视为数据库、文字处理文件,还是其他东西。另外,需要特别指出的是,这种独立性并不妨碍SGML应用程序能够根据用户的期望任意地显示数据。许多软件都提供了多种工具来设定任意内容对象类型的表现形式,并在写作和编辑中以“所见即所得”的方式显示这些内容。
  美国出版商协会(1988) 曾经为了组织成员标记拟出版文件开发过一套SGML“标签”(内容对象描述符)。虽然它还不能满足学术目的(部分原因在于有些标记,如诗歌所需的标记还是空白),但是它毕竟提供了一个有效的设计文档结构的例子。芝加哥大学出版社(1988)也推荐了一个非常类似的标签集。
  文本编码组织(Text Encoding Initiative,TEI)是一个得到学术界广泛支持的国际性协会,它正在开发多种满足学术和商业广泛性目标的文本编码指南[7]。TEI也是一个欧美联合科研项目,囊括了全球的学者。虽然还没有完工,但TEI已经决心使用SGML作为基本的文本描述语言。人们期望TEI包含一些标准用于表示那些常见的兴趣单元,以及多种文档类型定义(Document Type Definition,DTD)用于各种标准化的文档,还有明确定义如何根据新内容对象所需的标识来扩展自身。
  3.1 基于OHCO模型的文本处理优点
  该章节提出了一些使用OHCO模型识别文档逻辑对象的文本处理系统的优点。这些优点分为三方面:创作辅助、生产辅助、简化数据的再利用。这三个分类基本上是按照文献出版生命周期提出的,并作了扩展[8]。
  3.2 对于创作的好处
  OHCO模型简化了创作过程。格式方面的考虑使得作者在创作文本时,无需专门记住必要的格式规定和格式化命令,取而代之的是作者只需从菜单中选择一个名字来确认每个文本元素。该模型允许作者以适当的身份在某个抽象层面上处理文档,而确定到底是加重标题还是使标题居中以前则是印刷工人考虑的事。
  OHCO模型支持不同的文档视图。最近,大纲已经成为文本处理程序的标配,这不过是理想的文本模型带来的初步结果。文档的各级大纲视图仅需通过隐藏特定级别上的内容即可生成,例如顶级大纲视图只保留一级标题而隐藏其他内容。多个文档特定部分的复杂的有选择的展示也可以借助文档的逻辑组成轻松地实现。
  不幸的是,一般大纲视图只考虑有限范围内的元素。在最低层级,所有内容都是无差别的文本元素。例如,微软的Word软件的大纲视图采用的是一种非层级的文本模型。由于这种表现的限制,用户一般不能使用其大纲视图单独显示诗歌引文或者引文块以及加重的元素。这种令人遗憾的局限源于将“标题”作为一个特例而不是一个特定的层级对象类型组,而这正好对于生成选择性视图很有用。
  OHCO模型支持很多写作工具。由于OHCO格式的编辑程序可以按照组件形式灵活地处理文档,所以用户可以很容易得到有用的和复杂的编辑工具。
  因为有精确的内容层级描述,所以编辑软件,尤其是以SGML为基础的软件对文档结构较为敏感。这类软件可以提供包含所有所需对象的合适的大纲视图,并能提示作者所有上下文所需的或禁止的对象,并自动地重新编号或调整文档组件。例如,Softquad Author/EditorTM (Author/Editor, 1989)以图标的形式显示标签,并允许用户从菜单中选择标签来防止出现某些错误,该菜单只列出适用于当前上下文的所有标签。尽管很多编辑器都提供这种功能的简化版,但文本模型的不足还是会限制这些编辑器的有效性。例如,微软的Word可以给段落重新编号,但由于其文本模型是非层级结构的,它就不能区分列表项和嵌入在列表项中的段落。   如果注释(如旁注、脚注、书目的交叉引用)可以被标注,那么计算机就可以在文本与书目数据库、个人笔迹等内容间建立直接的联系。通过记录这些基本的文本组件的结构,就可以更加有效地利用它们。早期的超文本系统FRESS除支持OHCO文本模型的部分外,还有独立的注释,这些注释可以由一些类似于数据库的功能进行操作 (见Prusky,1978)。BibTeX针对参考书目也提供了类似的功能。
  OHCO模型促进了协同工作。由于OHCO模型并不针对特定的格式化程序或工具来描述文本,所以使得文档便于迁移传输。该技术不仅可以帮助个人在自己的机器上编写和打印文档,也可以帮助多个作者在一个大型项目中协同处理文档。另外,因为它允许将格式化处理延迟实施,并且作者也能够基于一个共同的表现形式构建自己喜欢的一套文档视图,而不需要符合其他人的作品样式,或者在非内容问题上浪费时间。(OHCO结构的SGML实现表现出比纯文本文档结构更多的优势,且没有像大多数文字处理器一样使用隐秘的二进制,这解决了文件传输中的很多常见问题。)
  3.3 生产方面的好处
  格式化的一般性说明:运用OHCO模型只需要确定文档的元素,部分或所有的最终格式方面的考虑都可以延迟处理。这带来的特别好处是能够简单地使用通用格式定义或“样式表” 按照预定义的样式对文档进行格式化处理。随着SGML的普及,这些定义正在适配于很多出版商独特的自有风格。
  格式的一致性:该模型特别展示了内容对象类型而不是详细的文本片段,基于OHCO的格式化程序可以在整个文档中实现格式的一致性。现有的文字处理器的风格样式表机制可以实现这一点,但这执行起来却很困难,因为它们允许甚至鼓励“差异性”,但却无法发现或删除这些差异性。一般来说,如果一个元素需要特殊的格式化那是因为该元素的确是一个特别的样式,那就最好赶快定义一个适当的样式名称。
  电子手稿:由于与特定类型的内容对象相关联的格式是独立于对象本身的,所以OHCO模型允许在任何时间进行简单的、全局的格式调整。人们可以根据特殊的印刷风格需要随时调用为出版商开发出的各种样式表。这个操作并不需要修改文本自身,从而消除了引发新的错误的机会和重复打样的需要。
  同样,专业的印刷工可以修改格式,而无需担心原始文本元素的类型和功能出现差错。想象一个哲学或数学文本,包含了许多定义和推论,并带有标记。如果印刷工人进行版面布局,并把这两类对象区别印刷,即使二者在作者个人的样式表中有相同的外观,操作起来都是小菜一碟。把最开始格式不同的对象处理成最后一样的样式同样如此。实际上,如果不是一开始就有差别,转换也不会那么容易完成。人们必须不停地检查文本,以判定每个元素到底是定义还是推论,这个过程反而很容易出错。
  在文本文件之外还有输出设备的支持:文本文件本身是独立于输出设备的,只有它们的处理过程是输出设备敏感的。描述性标记模型,如OHCO模型有利于从电子手稿直接生成版式文档,这在时间、成本和准确性上的优势非常明显。
  OHCO模型在印刷方面也有优点。即使打印机只有有限的字符集、字体也没有关系,文本文件在打印之前并不需要编辑。文档印刷程序可以尽量为每个元素生成最好的外观,而这也不影响以后更加复杂的利用。
  3.4 将文本转换成数据库
  数据完整性:上面所提到的功能使得不用编辑文本本身,就可以实现文本格式的变换、排版、在文本处理系统之间进行交换,这样可以避免破坏原始数据。带有很多描述性标记的文件也很容易转入其他处理系统,因为它们是系统相关的但又独立于应用程序。当用OHCO模型描述一个文本时,它就包含了所有的重要信息,其他类型的软件可以阅读其标签来理解数据。
  信息检索功能:OHCO模型将文档与相关文件视为可系统处理的包含各种文本元素的数据库。这不仅有利于信息检索,如不同观点的产生,而且有助于产生各种各样的“增值”型数据检索功能。
  例如,在文本库中进行全文检索时可以指定结构性检索条件。如学者可能希望查找一些哲学定义,在这些定义的词汇串中含有定义这样的字眼;或者文献学家希望在辞典中查找所有来源于法语的有前缀“in-”的词[9]。OHCO模型还允许对相似性检索设置特定的结构性界限范围。这意味着用户可以寻找所有标题中包含单词“爱”和“死亡”的章节。以前做这样的查询时,常常是指定一个字符串进行模糊搜索,然后再进行手工筛选结果。
  特殊处理:许多文本都包括特殊的元素,例如含有特殊符号的公式、韵律信息、外语、图形,以及其他非文本性数据。此类信息可用专门的软件打上标记,并进行处理。例如,创建、验证或评估公式,显示图形等。
  因为OHCO模型提供了一种可以把文本分解成更小的片段进行展示的方法,它还可以用于整合各种不同类型的数据或媒体成为“复合文档”。 当前,很多处理多媒体或复合文档的尝试都是基于某种形式的层级内容模型的。反映文本层级结构的标记也可以用于显示和在译文之间建立连接。例如,圣经研究工具CD WordTM可以同步显示希腊文的新约、英文翻译以及一节一节的注释(DeRose,1989)。
  由于一个学科的重要性文本单元决定了用于编码的最适合的标签,所以每个学科的特殊的复杂性可以直观地通过描述性标记来处理。精心设计的标记框架则能够促进更好地重用数据。
  4 OHCO在当下的应用
  4.1 基于OHCO的文本处理可能会被大众接受吗?
  尽管自20世纪60年代以来,研究人员就在推荐使用结构化的和内容导向的文本处理程序,1980年代的电脑文字处理软件却明显忽略了OHCO模型。这些程序的设计师更重视他们熟悉的系统,这些系统也有点像打字机,视觉上较为吸引人,但是,现在已有明确的迹象表明基于OHCO的文本处理程序将很快进入大众文本处理市场。
  首先,用户要求专业的计算保障,包括可移植性、兼容性、信息检索、成套的辅助工具、从电子手稿直接出版、在应用程序间共享数据,还有其他许多最先进的电脑文字处理软件都无法满足的要求,这些要求总是以令人意想不到的方式出现。   最引人注目的变化是SGML的地位得到大幅度提升,SGML成为描述性标记系统的国际标准以及文本编码数据标准。支持SGML的组织包括国际标准化组织(International Organization for Standar-dization)、美国国家标准学会(American National Standards Institute)、美国出版协会(Ameri-can Association of Publishers)、图像通信协会(Graphics Communications Association)、欧洲专利局(European Patent Office)、欧洲共同体委员会(Commission of European Communities)等。SGML由美国出版协会发布,也受到美国图书馆协会(American Library Association)、美国国会图书馆(Library of Congress)、医学图书馆协会(Medical Libraries Association)、现代语言协会(Modern Languages Association)、电气和电子工程师协会(Insitude of Electrical and Engineers)、联机计算机图书馆中心(Online Computer Library Center)、大学微缩胶卷联盟(University Microfilms International),以及其他专业和产业组织的支持。
  最重要的是,SGML作为一个“联邦信息处理标准”(FIPS 152)已经被一些政府办公室,包括美国国防部在大型出版项目上的采纳。这个规定可能会对编辑和字处理软件的发展产生重大影响,这些软件主要用于国防承包商开发技术文献。最终,这个规定也将会影响一般的高端文本处理市场。
  最后,拥有强大处理器和图形用户界面的新型微机,目前已经可以支持基于OHCO的文本处理软件,同时拥有所见即所得式的字处理程序的外观和感觉。这是创造流行的基于OHCO的文本处理器的最后障碍。
  4.2 现在有哪些产品?
  基于OHCO的文本处理开辟了在Scribe和IBM (and Waterloo) Script/GML的大型机上进行批处理的先机。目前,相关软件仍然可用,并且拥有基于OHCO的文本处理的大部分优点。但是,如果作者们要实现文本结构化还必须使用通用编辑器向文本中输入一些描述性标记标签并设置一些特殊的分隔符。现在还没有很多专业的编辑器来简化在电脑上打标和格式化处理工作。因此,新的所见即所得式的文字处理器便于新用户上手; Scribe和GML的优点只在那些大型复杂文档上体现得比较明显。
  SoftQuad是一个运行在苹果麦金塔电脑上的基于SGML的编辑器。它看上去和麦金塔电脑上其他的所见即所得式的文字处理程序没区别。SoftQuad能验证文本的OHCO结构,提供了可选择标记的菜单,并能和排版软件对接。但是该编辑器的基础版不是一个全功能的文字处理器,它缺少一些细节功能,如多栏、脚注还有复杂的页面布局功能。事实上,SoftQuad强调它本身是一个给作者和编辑者的工具,用于编写文档,而不是给设计师和排版人员进行页面设计和印刷的工具。SoftQuad所提供的格式化功能主要是让作者创建一个自然的和视觉上舒适的编辑环境,让标题看起来像标题,诗歌看起来像诗歌。SoftQuad有力地证明了基于OHCO的文本处理不需要像Scribe、Script/GML这样的传统而笨拙的批量格式化软件。
  Exoterica软件提供了各种各样的SGML操作工具,包括编辑器、解析器等。这些工具并不提供常见的文字处理界面以方便创作,但它们在处理SGML相关问题上相当专业,在处理不规范输入文件上表现也很出色。在很多设备上都可以使用这些工具。
  Interleaf、Context还有很多其他文字处理、桌面出版厂商都急于支持SGML;它们有的将SGML视作一个导入/导出格式,有些则将其视为基础性设计问题,不管怎样,但都在很认真地对待SGML,因为SGML有广泛的支持基础,尤其是在大市场领域,如那些有超多文献编制需求的行业。
  5 OHCO在未来的应用
  5.1 多层级结构
  这里有一个问题我们并没有讨论,那就是很多文档都有多个不相交的结构。例如,《圣经》里至少有三个有用的层次结构:
  ·参照层次,包括圣约、图书、章节、诗句;
  ·主题层次,包括章节、段落、句子;
  ·对于任意版本都有的版式层次,包括页面、列、行(这可能对研究圣经文本最没有用)。
  这样的多重结构在任何标记系统中都很难表示。尽管SGML可以对多个不相交的层级结构进行编码,但仍需要在编码和显示层面开发更好的表示方法。在某些情况下,多结构表示很重要,对OHCO模型进行统一的转换也有很多优势,这是未来发展的基础。
  5.2 网络和超文本
  有些文本结构即使使用多个层级结构也不能完整描述,它们需要更加灵活的网络结构。这种结构的典型例子就是交叉引用和超文本链接。然而,即使我们经常在文本的各个部分建立交叉引用的锚点,它们依旧是由OHCO的部分元素独立驱使的,所以为了支持这种新型专业技术,OHCO文本模型必须提供更多控制功能。
  分层文本结构已经被用于从现存文档中自动构建超文本(Frisse,1987)。为了实施超文本系统,需要将文本分割成一个个的区块或“节点”。在那些有意义的、清晰的文本标记支持下,这一工作发展相当迅速。哈佛大学的珀尔修斯项目(Perseus Project)正在将SGML作为其文献档案的基本格式,用于构建一个与古希腊相关的多媒体超文本系统。
  5.3 版本管理
  另一个与电子文档开发工具相关的问题是文本的版本管理。这一工作不仅出现在创作过程中的记录修改环节,也出现在古籍手稿的电子记录修改环节。   SGML似乎提供了足够的、可能稍显粗糙的关于版本信息的编码机制,但该领域鲜有进展。
  事实上,OHCO模型本身已经提供了简化描述和跟踪版本变化过程的必要信息。该模型通过章和节来直接表示对象,所以版本维护软件可以显示那些对作者或读者有意义的版本差异。例如,文本层次模型允许读者发现一本书的一章从一个地方移动到另一个地方,并跟踪章中的任何复杂变化。人们可通过观察版本的差异列表来获得这些变化信息。如果缺乏描述文档层次结构的信息,则无法自动提取这些变化。
  6 总 结
  “让我来编写整个国家的数据结构,我不关心谁写这些代码。”
  ——W.理查德·里斯道(W. Richard Ristow.)
  我们的观点一点都不过甚其辞。文本是内容对象的有序层级架构;基于其他文本模型的软件程序或计算实践都不能满足我们的科研与学术目标。那些忽略内容结构模型的软件不仅会阻碍理想的“信息空间”的发展,还会延续格式不兼容带来的成本问题,以及今天大学领域常见的应用程序只能一次性利用的难题。硬件或软件的改进都无法弥补这种设计上的根本缺陷。理想的功能性要求文本的本质结构必须按照我们的方法来反映。如果不反映文本的这些特征,就没有软件能够实现灵活性。
  下一步需要做些什么呢?首先,我们必须继续深化对文本结构的理解,并将其传递给我们的同事和大学。其次,我们必须把已知的文本结构融入计算技术与实践中,并鼓励其他人效仿。最后,我们必须坚持要求软件开发人员设计符合我们要求的系统——将文本视为多个对象的一种结构而非字符编码串。我们各个大学也不应该支持格式导向的文本处理器,就像我们避免错误的方法论、草率的研究活动以及糟糕的写作语法一样。
  注 释
  [1]本文主要来自作者在哈佛大学、布朗大学以及大学英语协会在夏洛特市召开的一个会议上的发言。我们感谢布朗大学人文计算用户组的成员们,特别要感谢詹姆斯 · S.库姆斯(James S. Coombs),安德鲁 · 吉尔马丁(Andrew Gilmartin)和 玛丽 · 麦克卢尔(Mary McClure)的讨论和建议。
  [2]戈德法布(Goldfarb) (1981)探讨了描述性标记,并解释说明了它们的一些优点。关于置标系统和一些重要扩展的综合性讨论可以参见库姆斯(Coombs)、瑞尼尔(Renear)和德罗斯(DeRose)(1987)的研究。
  [3]这里还有些例外,有些顺序来自于出版商自己的设计样式,甚至有点过于随意。例如,附录的顺序和参考书目的安排。
  [4]这构成了标示性标记的有限形式,以及由传统惯例发展出来的标准的标点符号性标记。表示性标记概念是库姆斯提出的。
  [5]至少是印刷工人熟悉的那些方法。最近的许多生产任务已经从出版商转向作者。这好在让作者可以更容易地控制作品的外观,但也有两个缺点:首先,作者写作的时间减少;第二,作家一般都不是专业的印刷工,而且很难做出高质量的专业排版效果。
  [6]见ISO (1986)。这个标准最好从附录而不是从正文开始阅读。
  [7]EI由人文计算协会(Association for Computing in the Humanities)、计算语言学协会(Association for Computa-tional Linguistics)、文学和语言计算学协会(Association for Literary and Linguistic Computing)发起。它主要是由美国人文基金会(National Endowment for the Humanities)、欧洲经济共同体(European Economic Community)提供赞助。
  [8]下面的部分主要归功于库姆斯;它发展并吸收了库姆斯、瑞尼尔和德罗斯关于描述性标记优点的讨论结果。
  [9]新版的牛津英文电子词典的搜索软件可以执行这种搜索。
  参考文献
  [1] Association of American Publishers. (1986). Reference manual for markup of electronic manuscripts
  [2] Barnard, D.T., Fraser, A. and Logan, G. (1988). Generalized markup for literary text. Literary and Linguistic Computing. 13:(11), pp. 26.31
  [3] Barton, D. (1989). Why use SGML? Electronic Publishing. 2:(1), pp. 3.24
  [4] Bryan, M. (1988). The author's guide to SGML. New York: Addison-Wesley. Author/Editor. (1989). SoftQuad Author/Editor, version 1.1. Toronto
  [5] Coombs, J., Renear, A. and DeRuse, S.J. (1987). Markup systems and the future of scholarly text processing. Communications of the ACM 30 (11), 933-947
  [6] DeRose, S.J. (1989). CDWord tutorial. Dallas: Dallas Theological Seminary
  [7] FrbN, M. (1989). Searching for Information in a hypertext medical handbook. Hypertext '87 Proceedings. Chapel HHI, North Carolina, 1987. New York: ACM. 7-66
  [8] Goldfarb, C.F. (1981). A generalized approach to document markup. Proceedings of the ACM SIGPLAN-SIGOA Symposium on Text Manipulation (Portland, Oregon, 1981). pp. 68-73. New York: ACM
  [9] Toloboff, V. (1986). Trends and standard in document representation. In J.C. Van Viler 0gal.), Text Processing and Document Manipulation. Cambridge: Cambridge University Press. 107-124
  [10] ISO (1986). Information Processing—Text and Office Systems—Standard Generalized Markup Language (SGML). ISO 8879
  [11] Prusky, J. (1978). FRESS Resource Manual. Brown University.
  [12] University of Chicago (1988). The Chicago Guide to Preparing Electronic Manuscripts. Chicago: University of Chicago Press
  [13] Weissman, R. (1990). Data liberation, or, Goals for a next generation software application architecture
  (收稿日期:2016-02-20)
其他文献
[摘 要] 基于博弈理论,建立以国家、版权企业和侵权盗版者三者为利益主体的博弈模型,并分析其两两之间的博弈关系及均衡情况,在对博弈结果分析的基础上提出加大处罚、打击侵权盗版,联合维权、降低维权成本,加强宣传、提高全民版权意识,完善法律、修订“技术中立”原则等版权保护策略。  [关键词] 媒介融合 版权保护 博弈 策略  [中图分类号] G231 [文献标识码] A [文章编号] 1009-5853
期刊
[摘 要] 通过华艺线上图书馆检索台湾地区自1999年以来关于出版研究的硕、博士论文,通过对其发文年代、发文机构、核心作者、学科分类以及研究主题等方面进行定量与定性分析,了解台湾地区出版研究的现状,以期为大陆出版业和出版研究的发展、两岸出版交流提供参考。  [关键词] 台湾地区 出版 华艺线上图书馆 出版研究  [中图分类号] G239 [文献标识码] A [文章编号] 1009-5853 (20
期刊
中国印刷术的发明和传播,对欧洲社会、思想的产生乃至世界文明进程有巨大推动作用。中国书史著名学者钱存训先生曾说:“在中国和西方,印刷术在书籍制作中起的作用大致相仿,但在这两个社会中的影响,在规模和形式上并不完全相同。在这两个不同的社会中,印刷术都使书籍的成本减低,产量增加,形式统一,流传广远,并使书籍有更多的流传后世的机会。但在其他方面,印刷术却以不同的程序,向不同方向发展。在西方,印刷工具逐渐机械
期刊
[摘 要] 老龄化社会的到来为老年读物的出版带来了难得的发展机遇。现实中老龄读物存在品种单调、质量参差不齐等诸多问题。本文以华龄出版社为例展开个案分析,以管窥我国当前老年图书出版的现状,为相关出版机构的发展提供借鉴和参考。  [关键词] 华龄出版社 老年图书 银发经济  [中图分类号] G237 [文献标识码] A [文章编号] 1009-5853 (2015) 04-0043-04  随着我国步
期刊
[摘 要] 面对创业教育观念误区,创业教育内容缺乏系统性、教学方法缺乏合理设计和创新,创业教育实训资源有限等问题,以高校的实训室为依托,以培养“双能型”学生为目标,将创业素质纳入高校人才培养目标体系中,将专业实训、顶岗实习和创业教育实训作为“三位一体”进行考虑设计,完成专业课实训、经营性项目中的顶岗实习以及创业实训,更好地培养学生的创新意识、创业素质、理论知识与实践有效结合等能力。  [关键词]
期刊
[摘 要] 三十多年来,广西的出版史料搜集、整理、出版和研究取得了显著成就。以《广西出版史志资料》为代表的史料编辑成果,收集了从雕版印刷时期到20世纪90年代末广西的出版史料,时间跨度大、史料翔实,展现了广西出版的历史与成就,为综合性的大型区域出版史的编写与当今的出版实践提供了重要的资源。  [关键词] 广西 出版史料 区域出版史料 《广西出版史料》  [中图分类号] G239 [文献标识码] A
期刊
[摘 要] 旨在探讨在信息技术变革所带来的大数据时代,出版产业该如何应对教育的信息化。从充分孵化、汇集平台、形成品牌、全面推广四个方面系统阐述安徽出版集团在教育信息化方面的实践经验。最后从宏观上对政府相关部门在其中应有的作为提出了建议。  [关键词] 教育信息化 安徽出版集团 传统出版 电子书包  [中图分类号] G237 [文献标识码] A [文章编号] 1009-5853 (2015) 04-
期刊
[摘 要] 以亚马逊旗下的奥德博(Audible)公司为研究对象,介绍美国有声读物的受众特点,梳理奥德博公司的发展历程,并重点对其有声产品开发、发行与推广环节进行深入探究。  [关键词] Audible公司 有声读物 数字出版  [中图分类号] G239 [文献标识码] A [文章编号] 1009-5853 (2016) 01-0090-06  [Abstract] Taking Audible
期刊
[摘 要] 对2012—2016年间,莫言、阎连科、刘慈欣、曹文轩、郝景芳五位获奖作家的作品在美国亚马逊的销售情况、世界图书馆联机数据(OCLC)的海外馆藏情况以及谷歌趋势角度进行统计调查,考察中国文学图书的海外影响力,并从降低文化折扣、兼容多层次传播渠道,建构互惠性理解的跨文化交流实践等角度为中国文学图书海外传播提出策略和建议。  [关键词] 中国文学图书 海外影响力 国际文学奖 美国亚马逊 世
期刊
[摘 要] 从学生的视角来研究应用智能手机的学习体验,并开展移动阅读现状调查研究。从大学生移动阅读的四个维度进行分析,分别为:移动阅读使用工具、可利用的学习资源、学习者移动阅读行为、移动阅读的态度。结论为:绝大多数学生已经具备移动阅读的硬件条件,并且有意识地进行各种移动阅读行为,他们对移动阅读有着较强的兴趣和愿望,更愿意接受有针对性的课程资源、学习视频等内容,希望得到教师或其他人在移动阅读方面的引
期刊